投稿日: SIGIR 論文紹介

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maarten
In Proc. of SIGIR 2016

概要

Twitterユーザの興味の時間的な推移を考慮しながら、その時々でのユーザの興味に応じて、似た興味を持つユーザ同士をクラスタリングすることを目的とした論文。ユーザの興味を推定するためにトピックモデルを使用しており、時刻tにおけるユーザのトピック分布とトピックの単語分布が時刻t-1のそれぞれの分布に依存して決まるモデルを提案している。

先行研究との違い

時刻に依存しない情報を利用してユーザをクラスタリングする研究はあったが、この研究では時刻に依存したユーザの興味に応じてユーザをクラスタリングしている。

手法

大きく分けて以下の3ステップから成る。

  1. ツイートからの単語ペアの抽出
  2. ストップワード除去後のツイートから、あらゆる2単語のペアを作成する。

  3. トピックモデルを用いたユーザの興味推定
  4. 提案モデルでは、ユーザ毎にトピック(興味)の分布を持ち、その分布から、ステップ1で抽出した単語ペアごとにトピックがひとつ生成される。また、時刻tにおけるユーザのトピック分布とトピックの単語分布は時刻t-1のそれぞれの分布に依存して決まる。

  5. ユーザのクラスタリング
  6. 各ユーザのトピック分布を利用して、K-meansによりユーザをクラスタリング。クラスタ数はトピック数と同じ値を用いる。時刻tで初めて登場したユーザに対しても、時刻tでのそのユーザのツイート内容からトピック分布を推定することでクラスタリングの対象に含めることを可能としている。

評価

1375名の378万ツイートを使用。時刻tの粒度として週単位、月単位、四半期単位、半年単位、年単位を使用。正解データとして、各粒度において1375名のユーザを人手でクラスタリング。週単位の場合、クラスタ数は48から60であった。

Dynamic topic modelやTopic tracking modelなどをベースライン手法として、ARIやH-scoreなどのクラスタリングの精度を測る指標を使って評価。

特定のユーザの月ごとの興味の移り変わりを、各月で興味の強いトピック内の語集合を示すことで定性的に評価。

関連研究

  • クラスタリングの評価指標:Normalized Mutual Information (NMI)
  • C. D. Manning, P. Raghavan, and H. Schütze. Introduction to information retrieval. Cambridge university press, 2008.

  • クラスタリングの評価指標:Adjusted Rand Index (ARI)
  • L. Hubert and P. Arabie. Comparing partitions. J. Classification, 1(2):193–218, 1985.

  • クラスタリングの評価指標:H-score
  • X. Cheng, X. Yan, Y. Lan, and J. Guo. A biterm topic model for short texts. In WWW, pages 1445–1456. ACM, 2013.


-SIGIR, 論文紹介

関連記事

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Semantic Role Labeling of Emotions in Tweets

Saif M. Mohammad Xiaodan Zhu Joel Martin In Proc. of WASSA 2014 概要 これまでにも、ツイートに含まれる感情を推定する研究は行われてきたが …

【論文紹介】Why People Search for Images using Web Search Engines

Xiaohui Xie, Yiqun Liu, Maarten de Rijke, Jiyin He, Min Zhang, Shaoping Ma WSDM 2018 ACM, PDF 概要 画像検 …

【論文紹介】Generative Feature Language Models for Mining Implicit Features from Customer Reviews

Karmaker Santu, Shubhra Kanti and Sondhi, Parikshit and Zhai, ChengXiang CIKM 2016 ACM 概要 イリノイ大学のChe …

Semantic Annotation of Mobility Data using Social Media

Wu, Fei and Li, Zhenhui and Lee, Wang-Chien and Wang, Hongjian and Huang, Zhuojie In Proc. of WWW 20 …