投稿日: CIKM 論文紹介

Personalized Models of Search Satisfaction

Ahmed Hassan
Ryen W. White
In Proc. of CIKM 2013

概要

ユーザが検索セッションに対して満足したか,不満足だったかを知ることは検索エンジンの質を高めるうえで重要な情報であり,これまでにユーザの検索セッションに対する満足(SAT)・不満足(DSAT)を推測することを目的とした研究が行われてきた.これまでの研究が全ユーザに共通のモデルを作っていたが,この研究では満足したときや不満足だったときの振る舞いはユーザによって異なるはずだという考えに基づいて,ユーザごとにモデルを作ることを目的としている.
この研究では,入力としてあるユーザの1つのセッションを与えると,SATまたはDSATのラベルが出力される.
ユーザごとにモデルを作る場合,訓練データが少なすぎる問題があるため,この研究では3種類の方法で類似ユーザを発見し訓練データを増やすことをしている.

モデル

ロジスティック回帰を用いて入力として与えられた検索セッションをSAT,DSATに分類する.その際に用いる素性はクエリ数,クリック数,SERP中での広告数など,既存研究でも用いられているような素性.

概要でも述べたように,1人のユーザのデータだけをもとに分類器を作成すると過学習状態になってしまうため,ユーザに対する類似ユーザを以下の3つの方法で集める.

  • Expertise Cohort
  • 検索セッション中でクエリの中に「+」「-」「””」「site:」を1度でも使っているユーザは検索のエキスパートであるとし,全ユーザをエキスパートとノンエキスパートに分類する.SATとDSATを分類したいユーザがエキスパートであればエキスパート集合のユーザのデータも用いる.

  • Topical Interests Cohort
  • ユーザが入力したクエリ集合から,各ユーザに1つ,そのユーザが興味を持っていると思われるトピックを割り当てる.SATとDSATを分類したいユーザがたとえば「スポーツ」トピックに興味があると割り当てられた場合,「スポーツ」トピックが割り当てられた全ユーザのデータも用いる.

  • Engine Preference Cohort
  • 使用している検索エンジンの種類(たとえばGoogle,Yahoo,Bing)に応じてユーザを分類する.SATとDSATを分類したいユーザがGoogleを使用している場合,Googleを使用している他の全ユーザのデータも用いる.

手法

分類器を作る際に用いるユーザ集合に応じて以下の6手法を提案している.

  • GlobalOnly
  • 全ユーザからサンプルされたデータを用いる.既存手法と同じであり,ベースラインになる手法.

  • PersonalOnly
  • 対象ユーザとその類似ユーザを用いる.

  • All
  • GlobalOnlyとPersonalOnlyの併用.ただしデータ量としてはGlobalOnly>>PersonalOnlyなので,結果はGlobalOnlyとほぼ変わらない.

  • Weighted
  • Allの問題点を解決するため,GlobalOnlyの重みを小さくする.

  • Re-Classify
  • GlobalOnlyの出力を1つの素性として,PersonalOnlyの素性に加える.

  • Prior
  • 転移学習を用いる.全ユーザからサンプルされたデータをソースドメイン,対象ユーザと類似ユーザのデータをターゲットドメインとする.

実験

まずは満足したセッションと不満足だったセッションを検索エンジンのクエリログから収集する.そのためにまず,各ユーザのクエリログを既存手法を用いてセッションに分割する.セッション中で検索エンジンを切り替えた場合はそのセッションが不満足だったとし,検索エンジンを切り替えなかった場合は満足したとする.このようにして,約2.5万ユーザから60,500の不満足なセッションを収集し,さらに2.5万の各ユーザから同数の満足なセッションをサンプリングする.

実験はある月の1日から23日までのデータを訓練データとし,同じ月の最後の1周間をテストデータとした.

まず,類似ユーザを用いずに対象ユーザだけを用いた場合,過学習のためGlobalOnlyよりも精度は悪くなった.
次に類似ユーザを考慮した場合,類似ユーザを集める手法の違いによらずRe-ClassifyやPriorの分類精度は優位にGlobalOnlyよりも良かった.
類似ユーザを集める手法間では,Expertise Cohortが最も高い精度であり,Topical Interests Cohortの精度が最も低かった.


-CIKM, 論文紹介
-,

関連記事

AutoWeb: automatic classification of mobile web pages for revisitation

Liu, Jie Xu, Wenchang Shi, Yuanchun In Proc. of MobileHCI 2012 http://dl.acm.org/citation.cfm?id=237 …

Optimizing Search by Showing Results In Context

Dumais, Susan Cutrell, Edward Chen, Hao In Proc. of CHI2001 http://dl.acm.org/citation.cfm?id=365116 …

Fusion Helps Diversification

Liang, Shangsong and Ren, Zhaochun and de Rijke, Maarten In Proc. of SIGIR 2014 概要 検索結果を多様化する際に、複数の検 …

A New Semantic Similarity Measuring Method Based on Web Search Engines

Lu, Gang Huang, Peng He, Lijun Cu, Changyong Li, Xiaobo In W. Trans. on Comp. vol. 9 http://dl.acm.o …

【論文紹介】Exploiting Geographical Influence for Collaborative Point-of-Interest Recommendation

Ye, Mao and Yin, Peifeng and Lee, Wang-Chien and Lee, Dik-Lun SIGIR 2011 ACM, PDF 概要 POIに対するユーザの興味、友 …