投稿日: その他 論文紹介

【論文紹介】From Popularity Prediction to Ranking Online News

Alexandru TatarEmail, Panayotis Antoniadis, Marcelo Dias de Amorim, Serge Fdida
Social Network Analysis and Mining, 2014
Springer, PDF

概要

ニュースサイトにて公開されたニュース記事をコメント数に基づいてランキングすることを目的にしている。記事公開後k時間のコメント数から30日後のコメント数を予測し、その予測値に基づいて記事をランキングすることで将来の人気ニュース記事ランキングを生成している。

データセット

フランスとオランダのニュースサイトのデータを使用。前者の場合、2007/2/3から2011/5/6に公開された記事23万件が対象で、1記事あたり平均で1,255件のコメントがユーザにより投稿されている。記事が公開されてから最後のコメントが投稿されるまでの期間を調べると、前者では61%、後者では72%の記事が公開後24時間以内であった。つまりニュースの「寿命」は非常に短い。

手法

記事公開後30日目の手法を予測する手法として、公開後k時間時点のコメント数と30日後のコメント数の関係をトレーニングデータから学習する回帰ベースの既存手法を使用。

評価

各ニュース記事のk時間後と30日後のコメント数の差分(テストデータを使って求められる真の値)を記事の「適合度」のようにみなして、30日後の推定コメント数に基づくニュース記事ランキングのnDCGを計算。kは1時間から24時間まで1時間ずつ増加させて評価。
k時間後の時点でのコメント数で30日後もランキングするベースラインなどと比べて高い精度でランキングを生成できていることを示した。20時間ほどで精度はサチっていた。

使用している既存手法ではコメント数を予測することでランキングを生成しているが、ランキングを直接生成するlearning to rankとも比較した。learning to rankではコメント数の他にも最初のコメントが投稿された時刻やコメントの平均投稿間隔などの特徴量も使用し、pointwise、pairwise、listwiseの3種類を適用。実験の結果、いずれの手法に比べても既存手法の方がnDCGの値は高く、直接ランキングを学習するアプローチは有効ではなかった。

感想

ニュースの寿命は短いというデータを示しておきながら、30日後のコメント数を予測してニュース記事をランキングするというモチベーション自体に疑問を感じた。


-その他, 論文紹介
-,

関連記事

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …

A comparison of visual and textual page previews in judging the helpfulness of web pages

Aula, Anne Khan, Rehan M. Guan, Zhiwei Fontes, Paul Hong, Peter In Proc. of WWW2010 http://dl.acm.or …

【論文紹介】Identifying Informational vs. Conversational Questions on Community Question Answering Archives

Ido Guy, Victor Makarenkov, Niva Hazon, Bracha Shapira WSDM 2018 ACM, PDF 概要 Yahoo Answersに投稿された質問がi …

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y. Caverlee, James Cheng, Zhiyuan Sui, Daniel Z. In Proc. of CIKM 2012 http://dl.acm …

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …