投稿日: その他 論文紹介

Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter

Nasir Naveed
Thomas Gottron
Jérôme Kunegis
Arifah Che Alhadi
In Proc. of WebSci 2011
http://dl.acm.org/citation.cfm?id=2527052&dl=ACM&coll=DL&CFID=472575376&CFTOKEN=83550246

概要

ツイッター上のツイートがリツイートされる確率を予測することを目的とした論文。フォロー関係などの情報は使わずに、ツイートの内容のみから確率の予測を試みている点に特徴がある。

手法

ロジスティック回帰を用いて確率を予測。使用する素性は以下のとおり。

  1. ツイートがリプライか否か
  2. ツイートにユーザ名、ハッシュタグ、URLが含まれるか否か
  3. ツイートに「!」と「?」が含まれるか否か
  4. ツイートにポジティブな単語、ネガティブな単語が含まれるか否か
  5. ツイートにポジティブな顔文字、ネガティブな顔文字が含まれるか否か
  6. ツイートのvalence (pleasure vs displeasure)、arousal (excitement vs calmness)、dominance (weakness vs strength)の度合い
  7. テストデータ内で、各単語を含むツイートのリツイートのされやすさを求め、それを元に対象のツイートがどの程度リツイートされやすいかをスコア化した値
  8. LDAを用いて求められた、ツイートのトピック

結果

重みがマイナスに大きかったのは素性1で、プラスに大きかったのは素性2のユーザ名とURL。
また、ポジティブなツイートよりもネガティブなツイートの方がリツイートされやすいこと、ツイートの最後が「?」のものは「!」のものよりリツイートされやすいことなどがわかった。
リツイートされやすいトピックはソーシャルメディア、経済、公式イベントなどで、リツイートされにくいトピックは自分の気分や天気に関するもの。


-その他, 論文紹介

関連記事

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

Measuring Pair-Wise Social Influence in Microblog

Zibin Yin Ya Zhang In Proc. of SocialCom 2012 概要 Weibo上でのリツイートのモデル化を提案。提案モデルを使うことで、ユーザAのツイートがフォロワーのユ …

From Skimming to Reading: A Two-stage Examination Model for Web Search

Liu, Yiqun Wang, Chao Zhou, Ke Nie, Jianyun Zhang, Min Ma, Shaoping In Proc. of CIKM 2014 http://dl. …

【論文紹介】Matrix factorization techniques for context aware recommendation

Baltrunas, Linas and Ludwig, Bernd and Ricci, Francesco RecSys 2011 ACM, PDF 概要 コンテキストによるバイアスを考慮したレー …