投稿日: WSDM 論文紹介

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren
Rappoport, Ari
In Proc. of WSDM 2012
http://dl.acm.org/citation.cfm?id=2124320

概要

ツイッター上で、任意の時刻間のハッシュタグの出現頻度を予測することを目的とした論文。予測には線形回帰を使用。使用する素性はハッシュタグに関するもの、ツイートの内容に関するもの、ツイッター上のソーシャルグラフに関するもの、時間に関するもの、の4カテゴリ。

素性

4つの各カテゴリで使用する素性の詳細は以下の通り。

  • ハッシュタグ関連
  • 文字数、単語数、ツイート内でのハッシュタグの位置、人名を含むか否か、LIWCというツールを用いて分析した印象情報など。

  • ツイートの内容関連
  • ツイートに含まれる語の中で、ハッシュタグとの共起度の高い1000語を対象にしてLIWCを使用した印象情報。

  • ソーシャルグラフ関連
  • ハッシュタグを使用しているユーザの平均フォロワー数、最大フォロワー数、ハッシュタグの付いたツイートがリツイートされる確率。

  • 時間関連
  • ハッシュタグが初めて出現した週および、1週間後、2週間後、6週間後のハッシュタグ付きツイート数を調べ、前の期間に対するツイート数の増減度合いを使用。

実験

上記の全ての素性を使用した場合が最も精度高くハッシュタグ付きツイートの出現頻度を予測できていた。
各カテゴリの素性を単独で使用した場合、精度の高い順に時間関連、ソーシャルグラフ関連、ハッシュタグ関連、ツイートの内容関連であった。
時間関連の素性は、出現頻度のスパイクが1回あるハッシュタグに対する予測精度は高かったが、スパイクが複数回あるものに対しては精度が落ちる傾向にあった。


-WSDM, 論文紹介

関連記事

Predicting the popularity of web 2.0 items based on user comments

He, Xiangnan and Gao, Ming and Kan, Min-Yen and Liu, Yiqun and Sugiyama, Kazunari In Proc. of SIGIR …

【論文紹介】Using Early View Patterns to Predict the Popularity of Youtube Videos

Pinto, Henrique and Almeida, Jussara M. and Goncalves, Marcos A. WSDM 2013 ACM, PDF 概要 YouTubeの動画の再生 …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

Learning from the Past: Answering New Questions with Past Answers

A. Shtok, G. Dror, Y. Maarek, and I. Szpektor In Proc. of WWW 2012 http://dl.acm.org/citation.cfm?id …