投稿日:2015/02/27 更新日: WWW 論文紹介

Answering relationship queries on the web

Luo, Gang
Tang, Chunqiang
Tian, Ying-li
In Proc. of WWW 2007
http://dl.acm.org/citation.cfm?id=1242648

概要

2つのクエリ(たとえば「京都大学」と「東京ドーム」)を入力したときに、各クエリの検索結果の中から、2つのクエリの共通点を表すページのペアを並べてユーザに提示する。ページのペアは、共通度合いの高い順に表示される。

手法の流れ

  1. Webページの取得
  2. Google APIを使って、各クエリの上位50件の検索結果を取得。ステップ4では、50×50=2,500ペアをランキングすることになる。

  3. Webページの前処理
  4. ステミング等を行ったあとで、ノイズ語を除くために、ページ内でクエリの前後30語を抽出し、ステップ3に使用する。

  5. ページ間の類似度計算
  6. Okapiを拡張した手法を提案して、ページ間の類似度を計算。一般的すぎる語の影響を小さくするために、一方のクエリの検索結果内でのIDFの低い語の重みを大きくしたり、長いページの影響を小さくするために、2つのページで共通する語の中で重要度の高い20語だけを使ってページ間の類似度を計算する、といった工夫をしている。

  7. ページペアのランキング
  8. ステップ3で計算した類似度の高い順にページペアをランキング。

実験

TRECのrelationshipタスクで使用されたクエリ等、30種類のクエリを用意。各クエリに対して得られた結果をあげながら定性的な評価を行っている。
それに加えて、共通点を表すページペアとしてふさわしいかを人手で判定したうえで、ステップ1で取得する検索結果数やステップ2でのウィンドウサイズを変更したときの精度を定量的に評価している。


-WWW, 論文紹介

関連記事

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y. Caverlee, James Cheng, Zhiyuan Sui, Daniel Z. In Proc. of CIKM 2012 http://dl.acm …

Predicting web searcher satisfaction with existing community-based answers

Liu, Qiaoling Agichtein, Eugene Dror, Gideon Gabrilovich, Evgeniy Maarek, Yoelle Pelleg, Dan Szpekto …

【論文紹介】What Makes a Link Successful on Wikipedia?

Dimitrov, Dimitar and Singer, Philipp and Lemmerich, Florian and Strohmaier, Markus WWW 2017 ACM, PD …

Struggling or Exploring? Disambiguating Search Sessions

Ahmed Hassan Ryen W. White Susan Dumais Yi-Min Wang In Proc. of WSDM2014 概要 長い検索セッションには,ユーザが情報の探索をして …

【論文紹介】Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …