投稿日: WSDM 論文紹介

Struggling or Exploring? Disambiguating Search Sessions

Ahmed Hassan
Ryen W. White
Susan Dumais
Yi-Min Wang
In Proc. of WSDM2014

概要

長い検索セッションには,ユーザが情報の探索をしているもの(exploring)と,欲しい情報が見つからず試行錯誤しているもの(struggling)がある.この論文では,exploringなセッションとstrugglingなセッションにおけるユーザの振る舞いの違いを分析する.さらにその分析に基づいて,セッションが与えられたときにそのセッションがexploringかstrugglingかを分類する.

データセット

この論文で定義しているexploringなセッションとstrugglingなセッションは共に,十分に長く,かつトピックが一貫しているセッションなので,まずはその条件にあうセッションをBingのクエリログから取得.その中から3,000セッションをサンプリングし,クラウドソーシングを用いてexploring,exploring with struggle,struggleのいずれかをラベル付けしてもらった.その結果,全体の40%がexploring,23%がexploring with struggle,36%がstrugglingであった.

ユーザの振る舞いの分析

上記のデータセットを使って,exploringなセッションとstrugglingなセッションにおけるユーザの振る舞いの違いを分析.

  • クエリ
  • セッション中のクエリの発行回数には差はなし.
    セッション中の各クエリについてそのセッションの最初のクエリとの類似度を測ると,strugglingセッションではセッションの後半でも最初のクエリとの類似度が高く,ユーザが目標の情報を探しあぐねていることを表している.
    Exploringセッションではセッションの最初のクエリに対してキーワードを追加したり削除したりして検索を行うことが多い.

  • クリック
  • セッションのどの時点でも,exploringの方が1つのクエリに対する検索結果のクリック数は多いが,後半になるほどその差は顕著になる.
    ページの滞在時間(dwell time)も,セッションのどの時点でもexploringの方が長い.

  • トピック
  • クエリのトピックを調べると,exploringに多いのはshopping,travel,entertainment,peopleで,strugglingに多いのはlocal,technical,
    downloads.

Exploringとstrugglingの予測

セッションのデータが与えられたときに,機械学習を用いてそのセッションがexploringかstrugglingかを予測.機械学習の素性は上記の分析で用いたデータが中心.
実験の結果,分類精度は81.67%.Query transition featureが最も有効な素性であった.

Exploringとstrugglingの活用例

セッションがexploringかstrugglingかのデータを,そのセッションが成功に終わったか失敗に終わったかをより高い精度で推定するために利用.セッションの成功・失敗を予測する従来の素性に加えて,exploringかstrugglingかの素性を加えたら精度が上がることを示した.


-WSDM, 論文紹介
-

関連記事

Finding Dimensions for Queries

Z. Dou, S. Hu, Y. Luo, R. Song, and JR. Wen In Proc. of CIKM2011 http://dl.acm.org/citation.cfm?id=2 …

Toward self-correcting search engines: using underperforming queries to improve search

Hassan, Ahmed White, Ryen W. Wang, Yi-Min In Proc. of SIGIR 2013 http://dl.acm.org/citation.cfm?id=2 …

Collective intelligence in the online social network of yahoo!answers and its implications

Li, Ze Shen, Haiying Grant, Joseph Edward In Proc. of CIKM 2012 http://dl.acm.org/citation.cfm?id=23 …

Addressing people’s information needs directly in a web search result page

Chilton, Lydia B. Teevan, Jaime In Proc. of WWW 2011 http://dl.acm.org/citation.cfm?id=1963413 概要 最近 …

Explainable User Clustering in Short Text Streams

Zhao, Yukun and Liang, Shangsong and Ren, Zhaochun and Ma, Jun and Yilmaz, Emine and de Rijke, Maart …