投稿日: SIGIR 論文紹介

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne
In Proc. of SIGIR 2016

概要

通常のLDAでは文書ごとにトピック分布が存在し、その分布から単語ごとにトピックが生成される。この論文では、文書のトピック分布から文ごとにトピックを生成し、文内の単語は共通のトピックを持つsentenceLDAを提案している。LDAとsentenceLDAでperplexityの比較と文書の分類精度の比較を行っている。

評価実験1:perplexity

2種類の公開データセット(WikipediaとPubMed)を使用。sentenceLDAはperplexityが収束するまでの時間が短いというメリットはあるものの、最終的なperplexityの値はLDAより劣っていた。perplexityは単語単位での評価なので、単語単位でトピックを生成するLDAの方が柔軟性が高いことから、LDAのperplexityの方が勝る結果となった。

評価実験2:分類

LDA、sentenceLDAともに文書ごとにトピックの分布が得られるので、K(論文ではK=125)トピックとした場合、各文書はK次元のベクトルで表される。このベクトルを素性としてSVMで文書の分類精度を比較。データサイズの小さいWikipediaデータセットでは分類精度に大きな差はなかったが、データサイズの大きいPubMedの方ではsentenceLDAがLDAを上回る結果に。また、LDAとsentenceLDAのトピック分布を合わせて各文書を2K(=250)次元のベクトルで表して分類すると、いずれのデータセットでもLDAとsentenceLDAを単体で使うよりも分類精度は高かった。

関連研究

  • トピックモデルにおけるperplexityの結果の優劣は、人が評価したトピックモデルの優劣の結果と一致するとは限らない
  • L. Azzopardi, M. Girolami, and K. van Risjbergen. Investigating the relationship between language model perplexity and IR precision-recall measures. In SIGIR, pages 369-370, 2003.


-SIGIR, 論文紹介

関連記事

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen In Proc. of SDM 2013 概要 LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文 …

Music on YouTube: User engagement with traditional, user-appropriated and derivative videos

Liikkanen, Lassi A. and Salovaara, Antti In Computers in Human Behavior, vol. 50 概要 YouTubeの音楽動画を対象に …

Search engine click spam detection based on bipartite graph propagation

Li, Xin Zhang, Min Liu, Yiqun Ma, Shaoping Jin, Yijiang Ru, Liyun In Proc. of WSDM 2014 http://dl.ac …

Spatio-temporal Dynamics of Online Memes: A Study of Geo-tagged Tweets

Kamath, Krishna Y. Caverlee, James Lee, Kyumin Cheng, Zhiyuan In Proc. of WWW 2013 http://dl.acm.org …

【論文紹介】Content-boosted matrix factorization for recommender systems: experiments with recipe recommendation

Forbes, Peter and Zhu, Mu RecSys 2011 ACM, PDF 概要 ユーザのアイテムに対するレーティングを予測する際に、アイテムの構成要素を考慮した、Matrix Fa …