投稿日:2012/10/26 更新日: WWW 論文紹介

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica
In Proc. of WWW 2005
http://dl.acm.org/citation.cfm?id=1060752

目的

クエリログを用いて,入力クエリと意味的に類似したクエリを発見することが目的.

手法

基本的なアイデアは,ある2つのクエリが入力されるタイミングが似ていれば,その2つのクエリは類似している,というもの.

例えば入力クエリが「ディズニー」であった場合,1日のクエリログを調べて,「ディズニー」という語の,その日に入力された全クエリに対する出現割合を求める.これを30日間にわたって求めると,「ディズニー」というクエリに対して30次元のベクトルを作成できる.
さらに,その30日間に入力された全てのクエリについても同様に30次元のベクトルを作成する.そして,各クエリについて「ディズニー」のベクトルとの相関係数を求め,その値が高いほど意味的に類似していると考える.
この研究では,クエリのタイプとして「greeting cards」や「superbowl」のように,時期によってクエリの発行頻度が異なるもの(event driven query)と,「dictionary」や「disney」のように,発行頻度が時期に依存しないもの(periodic query)を考える.

実験

クエリログはMSNのものを使用.実験では以下の3点を検証する.

  • クエリの出現割合を求めるための時間の長さはどれぐらいが良いのか.6時間にするのか,12時間にするのか,1日にするのか.
  • ベクトルはどれぐらいの期間に渡って作成すれば良いのか.
  • 相関係数の値がどれぐらいあれば意味的に類似していると言えるのか.

1点目については,event drivenなクエリについては1日,のように長い期間の出現割合を求めるのが良く,periodicなクエリについては3時間,のように短い期間の出現割合を求めるのが良い.
2点目についても,event drivenなクエリについては半年,のように長い期間に渡って出現割合を求めるのが良く,periodicなクエリについては1ヵ月,のように短い期間が良い.
3点目については,相関係数0.9以上が必要条件であることがわかった.
他にも明らかになった点として,periodicなクエリの場合,出現頻度をグラフにしたとき,人が見るとどのクエリも似たような形であるが,相関係数を求めるとちゃんと意味的に類似したクエリが見つかる.

入力クエリに対して発見された類似クエリの例

・event driven query
入力:greeting cards 出力:free e-cards, egreetings.com, bluemountain.com, yahoo cards, etc.
入力:superbowl 出力:superbowl commercials, superbowl halftime show, janet jackson, tom brady, etc.

・periodic query
入力:dictionary 出力:websters dictionary, thesaurus, free translation, etc.
入力:disney 出力:barbie.com, postopia.com, noggin.com, cartoon network, etc.


-WWW, 論文紹介
-,

関連記事

【論文紹介】Local implicit feedback mining for music recommendation

Yang, Diyi and Chen, Tianqi and Zhang, Weinan and Lu, Qiuxia and Yu, Yong RecSys 2012 ACM, PDF 概要 ある …

Predicting clicks: estimating the click-through rate for new ads

Richardson, Matthew Dominowska, Ewa Ragno, Robert In Proc. of WWW2007 概要 検索結果の横に表示される広告のCTRの推定を目的として …

Experiments with a Venue-Centric Model for Personalisedand Time-Aware Venue Suggestion

Deveaud, Romain and Albakour, M-Dyaa and Macdonald, Craig and Ounis, Iadh In Proc. of CIKM 2015 概要 ユ …

【論文紹介】The Influence of Early Respondents: Information Cascade Effects in Online Event Scheduling

Romero, Daniel M. and Reinecke, Katharina and Robert,Jr., Lionel P. WSDM 2017 ACM, PDF 概要 Doodleのような …

Identifying task-based sessions in search engine query logs

Lucchese, Claudio Orlando, Salvatore Perego, Raffaele Silvestri, Fabrizio Tolomei, Gabriele In Proc. …