投稿日: その他 論文紹介

【論文紹介】Personalised Rating Prediction for New Users Using Latent Factor Models

Seroussi, Yanir and Bohnert, Fabian and Zukerman, Ingrid
In Proc. of HT 2011

概要

映画や書籍に対するユーザのレーティングを予測する際に、通常のMatrix Factorisation(MF)ではレーティング数の少ないユーザに対する予測精度が悪いという問題点がある。この論文では、ユーザに固有の属性情報を用いることで、その問題を解決する。ユーザ固有の情報としては、年齢や性別、職業などのユーザによって明示的に与えられる属性値と、ユーザの書いたレビュー等のテキスト情報の2種類を用いる。

手法

通常のMFでは圧縮したユーザ用行列と圧縮したアイテム用行列を基にユーザのアイテムに対するレーティングを予測する。それに対して、提案モデルでは圧縮したユーザ用行列と圧縮した属性情報用行列を基に予測する。

性別や職業等の明示的に与えられる情報を使うときは、たとえば男性で会社員のユーザであれば、属性情報用行列の中で男性という属性値に対応する列ベクトルおよび、会社員という属性値に対応する列ベクトルと、ユーザ用行列の中でそのユーザに対応するの列ベクトルの類似度を見ながらレーティングスコアを求める。

レビュー等のテキスト情報を使うときは、ユーザの書いたレビューを一纏めにしてひとつの文書とみなしてLDAを適用する。ユーザの各トピックの生起確率を重みとして使いながらレーティングスコアを決める。

評価実験

データセットはMovieLens100KとIMDbを使用。いずれも映画に対するレーティングのデータ。前者は年齢、性別、職業、郵便番号の情報があるがテキスト情報はなく、後者はテキスト情報はあるが個人情報はない。

前者のデータセットに対してはユーザによって明示的に与えられる属性値を基にMFを拡張した結果のNRMSEを求め、後者に対してはテキスト情報を基にMFを拡張した結果のNRMSEを求める。その結果、テキスト情報を用いた方が改善精度が大きいことを明らかにした。

関連研究

  • NRMSEの改善精度は小さい場合でも、top-N recommendationの精度は大幅に改善される。
    Yehuda Koren, Factorization meets the neighborhood: a multifaceted collaborative filtering model, In KDD, pages 24-27, 2008.

-その他, 論文紹介

関連記事

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Are Web User Comments Useful for Search?

Wai Gen Yee Andrew Yates Shizhu Liu Ophir Frieder In Proc. of LSDS-IR Workshop 2009 概要 YouTubeの動画を検索 …

A Study of Mobile Search Queries in Japan

Ricardo Baeza-yates Georges Dupret Javier Velasco In Proc. of WWW2007 概要 デスクトップ検索とモバイル検索の日本語のクエリログに着 …

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …

Modeling User Posting Behavior on Social Media

Xu, Zhiheng Zhang, Yang Wu, Yao Yang, Qing In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id= …