投稿日: CIKM 論文紹介

【論文紹介】Exploiting ranking factorization machines for microblog retrieval

Qiang, Runwei and Liang, Feng and Yang, Jianwu
CIKM 2013
ACM, PDF

概要

入力として与えられたクエリに対してランキングされたツイートのリストを返すために、Factorization Machine(FM)の枠組みを取り入れたペアワイズのlearning to rankを適用した論文。

手法

通常のペアワイズのlearning to rankでは、文書に対応する特徴ベクトルの要素の重み付き線形和で文書のスコアを計算し、学習によりその重みを学習する。提案手法では、FMの要領で、文書の特徴ベクトルの要素間の組み合わせに対する重みも学習するように拡張。学習にはstochastic gradient descent (SGD)とAdaptive Regularization (AR)を使った方法を紹介している。

ツイートの素性として以下の3カテゴリを使用。

  • Content:クエリとツイートの単語の重複度やBM25のスコアなど。
  • Semantic:疑似適合フィードバックで拡張したクエリとツイートの単語の重複度など。ツイートにURLが含まれるときは、リンク先ページのtitleタグのテキストとクエリのBM25の値なども用いる。
  • Quality:ツイートのリツイート回数や単語数など。

評価

TRECのマイクロブログタスクのデータを使用。ベースライン手法としては、ペアワイズのlearning to rankで一般的なranking SVM等を使用。評価指標はP@30とMAP。
実験の結果、提案手法がベースライン手法をいずれの指標でも上回った。SGDを使った方がARよりも精度が高かった。素性の中ではクエリ拡張系とQualityカテゴリが精度の向上に貢献していた。SGDにおいてFMの圧縮ベクトルの次元数を変えたときの精度評価もしており、次元数を3としたときがP@30、MAPともに最も高い精度となった。


-CIKM, 論文紹介
-, ,

関連記事

【論文紹介】Anticipating Information Needs Based on Check-in Activity

Benetka, Jan R. and Balog, Krisztian and Nørvåg, Kjetil WSDM 2017 ACM, PDF 概要 ユーザがある場所(たとえばレストラン)から移 …

Towards Better Measurement of Attention and Satisfaction in Mobile Search

Lagun, Dmitry Hsieh, Chih-Hung Webster, Dale Navalpakkam, Vidhya In Proc. of SIGIR2014 http://dl.acm …

Toward self-correcting search engines: using underperforming queries to improve search

Hassan, Ahmed White, Ryen W. Wang, Yi-Min In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2 …

Everyday Life Music Information-Seeking Behaviour of Young Adults

Audrey Laplante J. Stephen Downie In Proc. of ISMIR 2006 概要 20人の若者を対象に、新しい音楽を探す際にとる行動についてインタビューを行い、結 …

Improving passage ranking with user behavior information

Weize Kong Elif Aktolga James Allan In Proc. of CIKM 2013 概要 検索中のユーザの振る舞いを基に検索結果をリランキングする研究はこれまでにも行わ …