投稿日:2017/03/19 更新日: WWW 論文紹介

【論文紹介】What Makes a Link Successful on Wikipedia?

Dimitrov, Dimitar and Singer, Philipp and Lemmerich, Florian and Strohmaier, Markus
WWW 2017
ACM, PDF

概要

Wikipediaでよくクリックされるリンクと、あまりクリックされないリンクの違いは何によって生じるのかを調べた論文。さらにそこで得られた知見を元に、PageRankの改善に取り組んでいる。

リンクのクリックの多寡に影響を及ぼす要因の調査

英語のWikipediaのデータセットを使用。ページ数は480万、リンク数は3400万。クリックデータは2015年2月のものを使用。10回以上クリックされたリンクのみ使用しており、そのようなリンクは全リンクの4%。

リンクがクリックされた回数を目的関数として回帰を行った。使用した特徴量は大きく分けて以下の3カテゴリ。

  • ネットワーク特徴量:リンク元、リンク先それぞれのページの入次数と出次数やPageRankの値など。
  • ページ類似度:リンク元とリンク先のページの類似度をtf-idfベースとWikipediaのカテゴリ情報ベースで求めたもの。
  • 視覚的特徴量:リンクがページ内のどこに位置しているか。ページ内の最初のセクションやインフォボックスなど6箇所のカテゴリを用意。ページ内のxy座標も使用。

回帰の結果、ネットワーク特徴量については、ネットワークの中心よりも端にあるページがクリックされやすいことがわかった。ネットワークの端にあるページはより具体的な内容のページであり、ユーザはページの内容を狭める方向のページに遷移しやすいことを表している。ページ類似度については、類似度が高いページに遷移しやすいことがわかった。視覚的特徴量については、ページの上部と左側にあるリンクがクリックされやすいことがわかった。

PageRankの拡張

通常のPageRankでは、ページ内の全リンクを等確率でクリックすることを想定している。この論文では、先程の分析で得られた知見をもとに、リンク先のページがネットワークの端にあるほど、リンク先のページ類似度が高いほど、リンクの位置が上部または左側にあるほど、高確率で遷移するようにPageRankを拡張した。各ページの閲覧数とPageRank値の相関を評価。

従来のPageRankに比べて、ネットワーク特徴量と視覚的特徴量をそれぞれ単独で使用した場合の相関は高くなったが、ページ類似度を使用した場合の相関は低くなった。ページ類似度を使用したときに相関が悪化した原因として、他の特徴量と比べて、ユーザが類似したページのリンクをクリックするのは限られたシチュエーションであるため、と述べている。ネットワーク特徴量と視覚的特徴量を組み合わせた場合が最も相関が高くなった。


-WWW, 論文紹介
-,

関連記事

Everyday Life Music Information-Seeking Behaviour of Young Adults

Audrey Laplante J. Stephen Downie In Proc. of ISMIR 2006 概要 20人の若者を対象に、新しい音楽を探す際にとる行動についてインタビューを行い、結 …

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …

How smart does your profile image look? Estimating intelligence from social network profile images

Wei, Xingjie and Stillwell, David In Proc. of WSDM 2017 概要 Facebookの1,122ユーザを対象にして、(1)ユーザのIQ、(2)ユーザの …

From Skimming to Reading: A Two-stage Examination Model for Web Search

Liu, Yiqun Wang, Chao Zhou, Ke Nie, Jianyun Zhang, Min Ma, Shaoping In Proc. of CIKM 2014 http://dl. …

【論文紹介】Personalised Rating Prediction for New Users Using Latent Factor Models

Seroussi, Yanir and Bohnert, Fabian and Zukerman, Ingrid In Proc. of HT 2011 概要 映画や書籍に対するユーザのレーティングを …