投稿日: WSDM 論文紹介

【論文紹介】Fun Facts: Automatic Trivia Fact Extraction from Wikipedia

Tsurel, David and Pelleg, Dan and Guy, Ido and Shahaf, Dafna
WSDM 2017
ACM, PDF

概要

人物名を対象として、Wikipediaからトリビア情報を発見するための手法を提案した論文。提案手法により「バラク・オバマはグラミー賞受賞者の一人である」のようなトリビアが発見される。トリビアを発見する精度の評価だけでなく、人物名でウェブ検索したユーザに対してGoogleのアドワーズで広告を表示し、トリビアを表示することによる効果を直帰率、滞在時間の観点から評価している。

手法

入力として与えられた人物のWikipediaページに付与されたカテゴリからトリビア情報を発見する。つまり、カテゴリをトリビア度に応じてランキングする問題である。人物AのカテゴリCのトリビア度が高ければ、「A is a member of group C」とユーザに提示する。カテゴリのトリビア度はsurpriseとcohesivenessという2つの観点から求める。

1つ目の観点のsurpriseとは、人物AとカテゴリCの類似度の低さであり、低いほど意外性が高くトリビア度が高くなる。具体的には、カテゴリC内のA以外のページとAの平均類似度の逆数により求める。ページ間類似度を求める際は、各ページからTF-IDFの上位10単語を抽出して分散表現を求め、分散表現が類似した単語がどれだけ多いかという情報を利用する。
「グラミー賞受賞者」というカテゴリにはアーティストのページが多いので、バラク・オバマと「グラミー賞受賞者」カテゴリの類似度は低くなる、つまりsurprise度は高くなる。

2つ目の観点のcohesivenessとは、カテゴリCに含まれる全ページ間の平均類似度の高さであり、高いほど意味のあるカテゴリでありトリビア度は高くなる。例えば、「アメリカ合衆国出身」というカテゴリには様々な人が含まれるのでページ間の平均類似度は低くなり、あまり意味のあるカテゴリとは言えない。一方で「グラミー賞受賞者」というカテゴリにはアーティストが多く含まれるのでページ間の平均類似度は高くなり、トリビアとして提示する意味のあるカテゴリと言える。

人物Aに対するカテゴリCのトリビア度はsurprise度とcohesiveness度の積により求める。

評価

Wikipediaの本文中からトリビア度の高い文を抽出する既存手法があるので、その手法と比較。クラウドソーシングを用いて評価し、提案手法の方が高精度でトリビア情報を提示できることを示した。

また、クエリに使用した人物でGoogle検索すると、Googleのアドワーズに「Read fun trivia facts about Barack Obama!」のように広告を表示し、リンク先では提案手法と比較手法の中のいずれかの手法によって求められたトリビアを上部に表示し、下部にはWikipediaの文章が表示されるように設定した。その結果、トリビアを高精度で表示できる提案手法では、比較手法に比べて直帰率が低く、ページ上の滞在時間も長くなるという結果が得られた。

感想

アドワーズを使った評価が、この研究の最もユニークな点である。冷静に考えると、そこまで必要な評価ではないようにも思うが、読み手にインパクトを与えているのは間違いない。
手法に関しては、カテゴリに限らず、ページ内でリンクが張られている単語でも同様に使えるのでは、と思った。つまり、ある単語Xにリンクを張っているページ集合に対してsurprise度とcohesiveness度を計算すれば良い。そうすることで、より多様なトリビア情報が見つかることが期待できる。


-WSDM, 論文紹介

関連記事

Happy, Nervous or Surprised? Classification of Human Affective States in Social Media

Munmun De Choudhury Michael Gamon Scott Counts In Proc. of ICWSM 2012 概要 ツイートを11種類の感情に分類することを目的とした論文 …

Placing Videos on a Semantic Hierarchy for Search Result Navigation

Tan, Song Jiang, Yu-Gang Ngo, Chong-Wah ACM TOMM 2014 http://dl.acm.org/citation.cfm?id=2578394 概要 「 …

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …

Spatio-Temporal Topic Modeling in Mobile Social Media for Location Recommendation

Bo, Hu and Mohsen, Jamali and Martin, Ester In Proc. of ICDM 2013 概要 チェックインサービス等でのユーザと場所と時刻を考慮したモデル化 …

Identifying task-based sessions in search engine query logs

Lucchese, Claudio Orlando, Salvatore Perego, Raffaele Silvestri, Fabrizio Tolomei, Gabriele In Proc. …