投稿日: SIGIR 論文紹介

Mining Query Subtopics from Search Log Data

Hu, Yunhua
Qian, Yanan
Li, Hang
Jiang, Daxin
Pei, Jian
Zheng, Qinghua
In Proc. of SIGIR 2012
http://dl.acm.org/citation.cfm?id=2348327

概要

クエリログから,あるクエリに対するサブトピック及びサブトピックに関係のあるURLを発見することを目的としている.例えば,「harry shum」というクエリのサブトピックとしては,「harry shum microsoft」や「harry syum jr」がある.この研究ではユーザの2種類の検索行動に着目してクリックログのURLをクラスタリングし,サブトピックを発見する.また,発見されたサブトピックを検索結果のリランキングに適用している.

手法

サブトピックを発見するにあたり,2つの検索行動に基づいた仮説を立てている.
1つ目は,「one subtopic per search(OSS)」と呼ばれるもので,あるユーザが1つのクエリの検索結果で複数のURLをクリックした場合,それらのURLは同じサブトピックに関連しているというもの.
2つ目は,「subtopic clarification by keyword(SCAK)」と呼ばれるもので,「harry shum」に対して「harry shum microsoft」のようにキーワードを追加したクエリがあったときに,両方のURLでクリックされたURLは同じサブトピックに関連しているというもの.

クエリに対するサブトピックはクエリログ中のURLのクラスタリングにより抽出する.クラスタリングの結果としては各クラスタのラベル(サブトピックに相当)とURL集合が得られる.
クエリQが与えられたときに,Wを1語のキーワードとして「Q+W」および「W+Q」の形で表されるクエリと各クエリでクリックされたURL集合をクエリログから収集する.
抽出されたURLの階層的クラスタリングを行う.URL間の距離(類似度)は次式により表される.
S(u_{i},u_{j})=\alpha S_{1}(u_{i},u_{j})+ \beta S_{2}(u_{i},u_{j})+ \gamma S_{3}(u_{i},u_{j})
S_{1}(u_{i},u_{j})はOSSに基づくURLの類似度.抽出されたクエリをq_{1},q_{2},\cdots ,q_{n}としたとき,各URLはクエリq_{i}によってk回クリックされたらi番目の要素がkであるようなベクトル.類似度はコサイン類似度により計算.
S_{2}(u_{i},u_{j})はSCAKに基づくURLの類似度.抽出されたクエリをq_{1},q_{2},\cdots ,q_{n}としたとき,各URLはクエリq_{i}によってクリックされたらi番目の要素が1であるようなベクトル.類似度はコサイン類似度により計算.
S_{3}(u_{i},u_{j})はURLを文字列として見た時の類似度.
クラスタリングは凝集型クラスタリングを採用.各クラスタのラベルは,クラスタ内のURLと紐付いたクエリの中で頻度の高いものを選択.

実験

クエリログはBingのものを使用.クエリはTRECで用いられたクエリやクエリログからサンプリングしたものを使用.あるクエリでクリックされたURL集合を人出でグルーピングすることで正解データを作成.クラスタリングの精度評価にはB-cubed Precision,B-cubed Recall,B-cubed F1を使用.
評価の結果,OSSとSCAKを単独で用いてもPrecisionは高いが,Recallは低い.提案手法のように組み合わせることでRecallも高くなる.

その他データ

クエリQQ+WW+QQを含むその他の形式のクエリの割合は45.5%,25.5%,16.5%,12.5%.
2個以上のURLをクリックした検索クエリのうち,84%はただ1つの検索意図をもつ.


-SIGIR, 論文紹介
-

関連記事

Unsupervised Semantic Similarity Computation between Terms Using Web Documents

Elias Iosif Alexandros Potamianos In IEEE Transactions on Knowledge and Data Engineering, Vol.22, Nu …

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V. WSDM 2015 ACM, PDF 概要 2007年に発表された論文dは、論文dの中で …

Placing Videos on a Semantic Hierarchy for Search Result Navigation

Tan, Song Jiang, Yu-Gang Ngo, Chong-Wah ACM TOMM 2014 http://dl.acm.org/citation.cfm?id=2578394 概要 「 …

Who uses web search for what: and how

Weber, Ingmar Jaimes, Alejandro In Proc. of WSDM 2011 http://dl.acm.org/citation.cfm?id=1935839 概要 Y …