投稿日: CIKM 論文紹介

Extending Faceted Search to the General Web

Kong, Weize
Allan, James
In Proc. of CIKM2014
http://dl.acm.org/citation.cfm?id=2661964

概要

ファセットを提示することでユーザの検索を支援する仕組みは、eコマースなどの特定のサービスでは見られるが、一般のWeb検索では実現されていない。この論文では一般のWeb上でのファセットに基づく検索(Faceted Web Search)の実現を目指す。たとえば、「computer monitor」というクエリが入力された場合、「ブランド」というファセットに関してSamsungやDell、Acerを提示し、「モニタの種類」というファセットに関してLET-LitやLCD、OLEDを提示する。

Faceted Web Searchの流れ

  1. ファセットに含まれる語の候補の収集
  2. クエリの検索結果から、構文パターンとHTML構造を利用して収集。

  3. 語のクラスタリング
  4. 1つのクラスタが1つのファセットを表すように1の語をクラスタリング。クラスタリングにはLDAなど5種類を使用し、実験にて精度を比較。

  5. ユーザのフィードバックに基づく検索結果のリランキング
  6. ユーザが選択したファセット内の語集合を元に、検索結果をリランキングする。リランキング方法として、Boolean Filtering Model(ユーザの選択した全単語を含む文書のみをリランキングの対象にするなど)とSoft Ranking Model(ユーザの選択した各単語が文書内に含まれる頻度に応じて文書のスコアを決定)を用意。

実験

実験にはTRECのdiversityタスクで使用されたデータを使用。このデータでは、クエリの各検索結果に対して、クエリのサブトピックとの関連度がスコア付けされているのでMAP等の計算が可能。

この実験では、実際にユーザに検索をしてもらうのではなく、oracle feedbackとannotator feedbackという仕組みを利用して機械的にリランキング精度を調べている。たとえばoracle feedbackでは、Soft Ranking Modelを使用して、リランキング後のMAPの精度が一定以上改善される語のみが選択される。annotator feedbackでは、全ファセット内の全単語の中で、検索意図の実現に有益そうなものを人手で選択してリランキングに使用している。
また、ユーザがファセット内の語を選択するためにかかる時間をモデル化し、消費時間とリランキング精度の関係を機械的に調べられるようにしている。

実験の結果、ファセット内の語の選択に10秒費やすだけでも、oracle feedbackにおけるリランキング後の検索結果は元の検索結果よりもMAPの値は有意に上昇し、20秒ほどかけたところでMAPの値はサチる。oracle feedbackにおいてはSoft Ranking Modelの方がBoolean Filtering Modelよりも良い結果を記録。annotator feedbackの精度はoracle feedbackよりも低く、この結果は人が必ずしも検索に適切な語を選択できていないことを示している。


-CIKM, 論文紹介

関連記事

【論文紹介】Bartering Books to Beers: A Recommender System for Exchange Platforms

Rappaz, Jérémie and Vladarean, Maria-Luiza and McAuley, Julian and Catasta, Michele WSDM 2017 ACM, P …

Personalized Models of Search Satisfaction

Ahmed Hassan Ryen W. White In Proc. of CIKM 2013 概要 ユーザが検索セッションに対して満足したか,不満足だったかを知ることは検索エンジンの質を高めるうえ …

【論文紹介】Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing In Proc. of SDM 2013 概要 トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書 …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …