投稿日: その他 論文紹介

【論文紹介】Precision-Oriented Evaluation of Recommender Systems: An Algorithmic Comparison

Alejandro Bellogín, Pablo Castells, Iván Cantador
RecSys 2011
ACM, PDF

概要

推薦結果の評価をする際に、テストデータの作り方の違いによって、手法間の優劣にどのような違いが生じるかを分析した論文。同様に、順位ベースの評価指標(Precision@50など)とRMSEで、手法間の優劣に生じる違いも分析。Movielensのような、ユーザがアイテムに何段階かでレーティングするようなデータセットを想定。

テストデータの作り方

全ユーザUの中で、評価対象となるユーザuのテストデータの作り方として以下の5種類を紹介。

  • TestRatings (TR):データセット全体を8:2とかに分割して、20%の中でuが実際にレーティングしたアイテムをテストデータとする。レーティングの値が閾値以上(5段階評価で4以上、など)のものを正解データとしてPrecision等を計算。20%の中でユーザがどれを評価しているかという情報は実際には知り得ないことなので、現実にはそぐわないテストセットになっている。
  • TestItems (TeI):20%の中で、全データセット内でu以外の1人以上のユーザによって評価されたアイテムをテストデータとする。
  • TrainingItems (TrI):TeIから、80%の中で誰にも評価されていないアイテムを除いたものをテストデータとする。
  • AllItems (AI):TeIに、全データセット内で誰にも評価されていないアイテムも追加したものをテストデータとする。
  • One-Plus-Random (OPR):uのアイテムiに対する推薦制度を測る際に、uによって評価されていないn(1000とか)個のアイテムをランダムに選択して、1001個のアイテム集合をテストデータとする。1001個のアイテムのランキング結果に対して評価指標を計算する。

テストデータの作り方による手法間の優劣の比較

手法として次の3つを使用:ユーザベースの協調フィルタリング(UB50)、アイテムの類似度ベース(IB)、行列分解(SVD)。評価指標はP@50、Recall@50、nDCG@50を使用。評価の結果、いずれの評価指標でも、TR以外の4つのテストデータでは手法間の順位が一致していた(SVD > UB50 > IB)。TRではSVD > IB > UB50であった。また、いずれの評価指標の値もTR以外は0.1未満が普通であるのに対して、TRではRecallやnDCGで1に近い値が記録されていた。さらに、TRでは手法間の評価指標の値の差が小さいという傾向も見られた。以上のことから、少なくともTRのようなテストデータの作り方はすべきでない。

評価指標による手法間の優劣の比較

上記の3つの評価指標に加えて、RMSEも使用。すでに述べたように、TR以外ではいずれの評価指標もSVD > UB50 > IBであったのに対して、RMSEではSVD > IB > UB50という結果であった。RMSEよりも、重要なアイテムを上位にランキングできているかを測る指標の方が、実際のユーザのニーズには即している、というのが著者の考え。


-その他, 論文紹介

関連記事

Perception and understanding of social annotations in web search

Fernquist, Jennifer Chi, Ed H. In Proc. of WWW 2013 http://dl.acm.org/citation.cfm?id=2488424 概要 Goo …

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …