投稿日: WWW 論文紹介

Improving relevance judgment of web search results with image excerpts

Li, Zhiwei
Shi, Shuming
Zhang, Lei
In Proc. of WWW2008
http://dl.acm.org/citation.cfm?id=1367497.1367501

概要

SERP中の各検索結果の横に、そのページ内にある最も重要な画像を表示するインタフェースを提案。ページ内にある画像の中で、クエリに関係のある重要な画像を推定することが目的。画像の重要度の推定は以下の2つのスコアの線形和で求める。

  1. 画像自体の重要度(クエリとは無関係)
  2. 画像とクエリの関連度

1. 画像自体の重要度

以下の3つのカテゴリの素性を用いて、機械学習により重要度をスコア付け。学習にはRankBoostという既存手法を使用。

  • Image Level Features
  • 画像サイズや、既存手法で図られる画像のクオリティなど。

  • Page Level Features
  • ページ内での画像の位置やページ内での画像の占める割合など。

  • Website Level Features
  • 画像のURLのホスト名がページのURLのホスト名と一致しているか、他のページでも同じ画像が使用されているかなど(主に広告画像を除くことを目的とした素性)。

2. 画像とクエリの関連度

DOMを用いて画像の周辺テキストを抽出し、ベクトル空間モデルでクエリとの関連度を計算。

実験

MSN.com、MIT.edu、CNN.comをクロールして実験に使用。3000ページをサンプリングして、各ページ内の各画像の重要度を3段階でラベル付けして交差検定。重要かどうかの分類精度は90%以上という結果。

クエリの関連度に関する実験では、Googleトレンドから集めた40クエリを使用。各クエリの検索結果上位20件を対象として、各ページの各画像のクエリに対する重要度をラベル付けして交差検定。最も重要な画像の推定精度は90%近い結果。

User Study

100個のクエリを用いて、通常の検索結果UIと画像を表示するUIで、タスク終了までにクリックされるページ数とタスクの達成時間を比較。
実験の結果、Navigational、Informationalなクエリともに画像を表示した方がクリックされるページ数は少なくタスクの達成時間は短かった。
また、クエリのカテゴリに関わらず、画像を表示した方がクリックされるページ数は少なくタスクの達成時間は短かった。特に、「mutual information」や「thinking」のような抽象的なカテゴリよりも、「apple」や「mountain」のような具体的なカテゴリの方が有用であった。


-WWW, 論文紹介

関連記事

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …

Time-critical search

Mishra, Nina and White, Ryen W. and Ieong, Samuel and Horvitz, Eric In Proc. of SIGIR 2014 概要 一緒にいる人 …

【論文紹介】Detecting and Characterizing Eating-Disorder Communities on Social Media

Wang, Tao and Brede, Markus and Ianni, Antonella and Mentzakis, Emmanouil WSDM 2017 ACM, PDF 概要 摂食障害 …

Semantic Annotation of Mobility Data using Social Media

Wu, Fei and Li, Zhenhui and Lee, Wang-Chien and Wang, Hongjian and Huang, Zhuojie In Proc. of WWW 20 …

Good Abandonment in Mobile and PC Internet Search

Li, Jane Huffman, Scott Tokuda, Akihito In Proc of SIGIR2009 http://dl.acm.org/citation.cfm?id=15719 …