投稿日: その他 論文紹介

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing
In Proc. of SDM 2013

概要

トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書内の単語のみを考慮する。この論文では、文書内の単語に加えて、ユーザの振る舞いも考慮したモデルB-LDA(Bはbehaviorを表す)を提案。具体的には、Twitterを対象として、ユーザの振る舞いとしてツイートの投稿、リツイート、リプライ、メンションの4種類を考慮。

モデル

ユーザごとにトピック分布を持つ。Twitterのような短文を扱う際によく行われるように、ツイートごとにひとつのトピックを生成する。あるツイートtのトピックをzとすると、ツイート内の全ての単語はトピックzの単語分布から生成される。同時に、各トピックは振る舞いの確率分布も持つ。概要で述べたように、本研究で扱う振る舞いは4種類であり、4種類の各振る舞いの確率の和が1になるような分布になっている。ツイートtの振る舞い(リツイートかリプライか、など)は観測可能であり、トピックzの振る舞いの分布から振る舞いが生成される。

評価実験

比較手法として既存手法のTwitter-LDA(T-LDA)と通常のLDAを使用。

B-LDAではトピックごとに振る舞いの分布を持っている。トピックごとに分布のエントロピーを計算し、全トピックでの平均値を求めたときに、エントロピーが低いほど、トピックごとに振る舞いの偏りがあり、上手くモデル化できているとみなす。T-LDAとLDAでは振る舞いの分布は直接はモデル化されていないが、各ツイートのトピックと振る舞いからトピックごとの振る舞いの分布は計算できる。比較した結果、B-LDAのエントロピーの値が最も低くなっていた。

定性的な評価として、T-LDAではひとつのトピックとして表されているものが、B-LDAでは単語の分布は似ているが振る舞いの分布が異なる2つのトピックに分けられている例が紹介されている。さらに、定量的評価としてfolloweeの推薦精度の3手法での比較も行い、B-LDAが最も高い精度であることを検証している。


-その他, 論文紹介

関連記事

Retrieval models for question and answer archives

Xue, Xiaobing Jeon, Jiwoon Croft, W. Bruce In Proc. of SIGIR 2008 http://dl.acm.org/citation.cfm?id= …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …

Enhancing collaborative filtering systems with personality information

Hu, Rong and Pu, Pearl In Proc. of RecSys 2011 概要 協調フィルタリングを用いてあるユーザに推薦するアイテムを決める際、通常はそのユーザの過去のアイテムの …

Spatial influence vs. community influence: modeling the global spread of social media

Kamath, Krishna Y. Caverlee, James Cheng, Zhiyuan Sui, Daniel Z. In Proc. of CIKM 2012 http://dl.acm …