投稿日: CIKM 論文紹介

【論文紹介】Exploiting ranking factorization machines for microblog retrieval

Qiang, Runwei and Liang, Feng and Yang, Jianwu
CIKM 2013
ACM, PDF

概要

入力として与えられたクエリに対してランキングされたツイートのリストを返すために、Factorization Machine(FM)の枠組みを取り入れたペアワイズのlearning to rankを適用した論文。

手法

通常のペアワイズのlearning to rankでは、文書に対応する特徴ベクトルの要素の重み付き線形和で文書のスコアを計算し、学習によりその重みを学習する。提案手法では、FMの要領で、文書の特徴ベクトルの要素間の組み合わせに対する重みも学習するように拡張。学習にはstochastic gradient descent (SGD)とAdaptive Regularization (AR)を使った方法を紹介している。

ツイートの素性として以下の3カテゴリを使用。

  • Content:クエリとツイートの単語の重複度やBM25のスコアなど。
  • Semantic:疑似適合フィードバックで拡張したクエリとツイートの単語の重複度など。ツイートにURLが含まれるときは、リンク先ページのtitleタグのテキストとクエリのBM25の値なども用いる。
  • Quality:ツイートのリツイート回数や単語数など。

評価

TRECのマイクロブログタスクのデータを使用。ベースライン手法としては、ペアワイズのlearning to rankで一般的なranking SVM等を使用。評価指標はP@30とMAP。
実験の結果、提案手法がベースライン手法をいずれの指標でも上回った。SGDを使った方がARよりも精度が高かった。素性の中ではクエリ拡張系とQualityカテゴリが精度の向上に貢献していた。SGDにおいてFMの圧縮ベクトルの次元数を変えたときの精度評価もしており、次元数を3としたときがP@30、MAPともに最も高い精度となった。


-CIKM, 論文紹介
-, ,

関連記事

Personalized Models of Search Satisfaction

Ahmed Hassan Ryen W. White In Proc. of CIKM 2013 概要 ユーザが検索セッションに対して満足したか,不満足だったかを知ることは検索エンジンの質を高めるうえ …

Computers and iPhones and Mobile Phones, oh my! A logs-based comparison of search users on different devices.

Kamvar, Maryam Kellar, Melanie Patel, Rajan Xu, Ya In Proc. of WWW2009 http://dl.acm.org/citation.cf …

【論文紹介】LARM: A Lifetime Aware Regression Model for Predicting YouTube Video Popularity

Changsha Ma and Zhisheng Yan and Chang Wen Chen CIKM 2017 PDF 概要 YouTubeに投稿された動画の、投稿後の短時間(1日とか1時間)で得 …

Time-sensitive query auto-completion

Shokouhi, Milad Radinsky, Kira In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348364 概要 従 …

Fusion Helps Diversification

Liang, Shangsong and Ren, Zhaochun and de Rijke, Maarten In Proc. of SIGIR 2014 概要 検索結果を多様化する際に、複数の検 …