投稿日:2013/09/24 更新日: SIGIR 論文紹介

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad
White, Ryen W.
Bennett, Paul
Radlinski, Filip
In Proc. of SIGIR 2013
http://dl.acm.org/citation.cfm?id=2484075

概要

1つの検索セッション中であるクエリを入力したときに得られる検索結果には,そのセッション中でこれまで入力したクエリの検索結果に出現したページも含まれる.重複しているからといって提示しないのが良いかというと必ずしもそうではなく,そのページに対するこれまでのアクション(クリックしたか等)によっては上位に提示することが望ましい場合もある.この論文では,重複して現れるページの有用度を推定し,検索結果をリランキングすることを目的としている.

データ分析

BingとYandexのクエリログを使用.

1セッションに2回しかクエリを入力しない場合でも,Bingでは44%のセッションで同じページが上位10件に複数回出現する.セッション中のクエリ数が9個になると,その割合は90%以上になる.

続いて,セッション中に複数回現れるページに対するユーザの振る舞いの傾向を分析.
初めて出現したページに対するユーザのアクションを以下の3つに分類.

  • clicked:そのページをクリックした.
  • skipped:そのページはクリックせず,そのページより下位にあるページを1つ以上クリックした.
  • missed:そのページはクリックせず,そのページより下位にあるページも1つもクリックしなかった.

検索結果の上位4件のclickthrough rates(CTR)を調べると,初めて出現するページのCTRが最も高く,そのあとにmissed,skipped,clickedと続く.
これまでにskipされた回数によるCTRを調べると,skipの回数が多いほどCTRは低くなる.つまり,skipの多いページはユーザにとって真に不要なページであると言える.
これまでにclickされた回数によるCTRを調べると,clickの回数が多いほどCTRは高くなる.つまり,clickの多いページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.
これまでのページの滞在時間によるCTRを調べると,滞在時間の長いページほどCTRは高くなる.つまり,滞在時間の長かったページは,同一セッションで複数回提示された場合でもそのユーザにとっては有用なページであると言える.

以上のように,1つのセッション内で複数回提示されるページであっても,そのページに対するユーザのそれまでの振る舞いによってページの重要度は異なるので,リランキングをすることが重要になる.

手法

ページの重要度推定にはLambdaMARTを使用.各ページに対して使用する素性は大きくわけて以下の4種類.

  • Click features:同一セッション内でこれまでにクリックされた回数など.
  • Display features:同一セッション内でこれまでに検索結果に現れた回数など.
  • Query features:今入力しているクエリと,同一セッション内でこれまでに入力したクエリの平均類似度など.
  • Other features:検索エンジンによって計算されるページのスコアなど.

実験

セッションの一番最後にクリックされたページと,滞在時間が30秒以上のページをユーザが満足したページ,つまり正解ページとして,リランキング前後のMRRとMAPを計算.
MRRはリランキング前が0.696でリランキング後が0.711と2.1%の改善が,MAPはリランキング前が0.536でリランキング後が0.553と3.2%の改善が見られた.
順位が変動したページのうち,63%は順位が1つだけ上昇または下降したものであった.


-SIGIR, 論文紹介

関連記事

Exploring and exploiting user search behavior on mobile and tablet devices to improve search relevance

Song, Yang Ma, Hao Wang, Hongning Wang, Kuansan In Proc. of WWW 2013 http://dl.acm.org/citation.cfm? …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

Crowdsourcing for relevance evaluation

Alonso, Omar Rose, Daniel E. Stewart, Benjamin In SIGIR Forum, Vol.42, Num.2 http://dl.acm.org/citat …

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …