投稿日:2014/11/08 更新日: CIKM 論文紹介

Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter

Ma, Zongyang
Sun, Aixin
Yuan, Quan
Cong, Gao
In Proc. of CIKM2014
http://dl.acm.org/citation.cfm?id=2661903

概要

ハッシュタグ付きのツイートのモデル化を目的とした論文。ユーザ、時間、ツイート内容、ハッシュタグを考慮したトピックモデルを提案している。
提案モデルを用いて、あるツイートに対するハッシュタグの推薦および、あるハッシュタグと関連のあるハッシュタグの発見を行っている。

モデル

以下の2種類のモデルを提案。いずれもユーザ、時間、ツイート内容、ハッシュタグを考慮している。

  • Content-Pivoted Model(CPM)
  • このモデルでは、ユーザはまずツイート内容を記述してから、その内容を表すのに適切なハッシュタグを考える、と仮定している。つまり、ユーザと時間に応じてトピックが生成され、トピックに応じてツイート内の単語とハッシュタグが生成される。
    ツイートdとトピックzの同時確率は以下のように表される。
     p(d,z)=p(u)p(t)p(z|u,t)p(\bm{w}_{d}|z)p(\bm{h}_{d}|z)
    uはユーザ、tは日付け、\bm{w}_{d}はツイート内の単語、\bm{h}_{d}はツイート内のハッシュタグを表す。また、p(z|u,t)=\alpha p(z|u) + (1-\alpha )p(z|t)

  • Hashtag-Pivoted Model(HPM)
  • このモデルでは、ユーザは事前に選択したハッシュタグに応じてツイート内容を記述する、と仮定している。つまり、ユーザ、時間、ハッシュタグに応じてトピックが生成され、トピックに応じてツイート内の単語が生成される。
    ツイートdとトピックzの同時確率は以下のように表される。
     p(d,z)=p(u)p(t)p(\bm{h}_{d})p(z|u,t,\bm{h}_{d})p(\bm{w}_{d}|z)

いずれのモデルでも、パラメータをEMアルゴリズムで推定。

さらに、上記の各モデルに対して、「メンションを飛ばし合うユーザ同士は似たトピックを共有する」という仮定を組み込んだCPM-sn、HPM-snの2つのモデルも提案。

実験

ツイート集合を学習用とテスト用に分け、テストデータのperplexityを各モデルで計算。実験の結果、CPMよりもHPMの方が、HPMよりもHPM-snの方が良い結果を得た。

上記の実験に加えて、ツイートdが与えられたときに、dに対して付与すべきハッシュタグの推薦精度の実験および、ハッシュタグhが与えられたときに、全ハッシュタグをhと関連度の高い順にランキングする精度の実験を行っている。


-CIKM, 論文紹介

関連記事

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …

【論文紹介】Precision-Oriented Evaluation of Recommender Systems: An Algorithmic Comparison

Alejandro Bellogín, Pablo Castells, Iván Cantador RecSys 2011 ACM, PDF 概要 推薦結果の評価をする際に、テストデータの作り方の違い …

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …

Mobile App Retrieval for Social Media Users via Inference of Implicit Intent in Social Media Text

Park, Dae Hoon and Fang, Yi and Liu, Mengwen and Zhai, ChengXiang In Proc. of CIKM 2016 概要 ツイートに含まれる …