投稿日: その他 論文紹介

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen
In Proc. of SDM 2013

概要

LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文書が所属するトピックの分布が一様分布に近くなる、つまりエントロピーが高くなり、その結果としてモデル化の精度が落ちるということが起こりうる。この論文では、エントロピーが高いときにペナルティを課すようにしてエントロピーを低く抑える手法を提案し、各トピックの特徴をより明確にしてモデルの精度を上げることを達成した。

手法

単語のトピック分布に偏りを持たせる場合について説明する。トピックモデルでは、単語wの各トピックでの生起確率が計算できるので、その分布からwのエントロピーHwを計算する。ここで、単語ごとに擬似観測変数lwを導入する。lwは平均がHw、分散がσwの正規分布から生成されるとする。つまり、すべての単語に対してlw=0とすれば、Hw=0となるべきであり、エントロピーが0なので各単語は1つのトピックにのみ所属することになる。実際、この論文ではすべての単語に対してlw=0としている。また、σwの値を小さくすることで、lwが0以外の状態を想定しない度合いが強くなり、トピックの分布により偏りを持たせることができる。

この正規分布からのlwの生成確率を同時分布に組み込むことで、Hwのエントロピーが高くなるほど尤度が低くなるようにしている。

評価方法

使用するデータはamazonのレビュー情報と、映画のレビュー情報。

全単語のエントロピーの平均値を計算したところ、通常のトピックモデルよりも提案モデルの方がその値は低くなっており、分布に偏りを持たせることができていることを示した。また、σwの値を小さくするほどエントロピーが低くなることも示した。

通常のトピックモデル、σw=0.5とした提案モデル、σw=0.2とした提案モデルでperplexityを計算したところ、σw=0.5の時が最もperplexityが小さくなった。この結果から、単純にσwを小さくしてトピックの分布の偏りを大きくするほど良いわけではなく、適度に偏りを持たせる必要があることを示した。


-その他, 論文紹介

関連記事

Semantic Role Labeling of Emotions in Tweets

Saif M. Mohammad Xiaodan Zhu Joel Martin In Proc. of WASSA 2014 概要 これまでにも、ツイートに含まれる感情を推定する研究は行われてきたが …

【論文紹介】I’ll Be Back: On the Multiple Lives of Users of a Mobile Activity Tracking Application

Zhiyuan Lin, Tim Althoff, Jure Leskovec WWW 2018 ACM, PDF 概要 Argusというスマホのダイエット用アプリのログを使って、ユーザのengage …

Your neighbors affect your ratings: on geographical neighborhood influence to rating prediction

Hu, Longke and Sun, Aixin and Liu, Yong In Proc. of SIGIR 2014 概要 店sの周辺の店の情報を利用することで、ユーザuのsに対するレーティン …

Analyzing and evaluating query reformulation strategies in web search logs

Huang, Jeff Efthimiadis, Efthimis N. In Proc. of CIKM2009 http://dl.acm.org/citation.cfm?id=1645966 …

Spatio-Temporal Topic Modeling in Mobile Social Media for Location Recommendation

Bo, Hu and Mohsen, Jamali and Martin, Ester In Proc. of ICDM 2013 概要 チェックインサービス等でのユーザと場所と時刻を考慮したモデル化 …