投稿日: その他 論文紹介

A New Semantic Similarity Measuring Method Based on Web Search Engines

Lu, Gang
Huang, Peng
He, Lijun
Cu, Changyong
Li, Xiaobo
In W. Trans. on Comp. vol. 9
http://dl.acm.org/citation.cfm?id=1852382

概要

検索エンジンを用いて得られる情報を基に,単語間の意味的類似度を測ることを目的としている.

手法

検索エンジンのヒットカウントを用いて測る主な手法として以下の4つをあげている.以下の式中で,hits(q)qをクエリとしたときの検索ヒット数,hits(q_{1}\land q_{2})q_{1}q_{2}を共に含むページの検索ヒット数を表す.また,Nは全Webページ数で,論文中では10^{10}としている.

  1. WebJaccard(q_{1},q_{2})=\log_{2} \left( \frac{hits(q_{1}\land q_{2})}{hits(q_{1})\times hits(q_{2})-hits(q_{1}\land q_{2})} \right)

  2. WebDice(q_{1},q_{2})=\log_{2} \left( \frac{2 \times hits(q_{1}\land q_{2})}{hits(q_{1})\times hits(q_{2})} \right)

  3. WebPMI(q_{1},q_{2})=\log_{2} \left( \frac{hits(q_{1}\land q_{2})/N}{\left( hits(q_{1})/N \right) \times  \left( hits(q_{2})/N \right)} \right)

  4. NDG(q_{1},q_{2})=\frac{max \left( \log \left( hits(q_{1}) \right), \log \left( hits(q_{2})\right) \right)}{\log{N- min \left( \log \left( hits(q_{1}) \right), \log \left( hits(q_{2}) \right) \right)}}

1,2,3では,hits(q_{1} \land q_{2})の値が閾値以下なら0とする.論文中では閾値を5としている.

これらに対して,本論文ではCo-occurrence Double-check Mode(CODC)と呼ばれる以下の式で表される手法を提案している.
 CODC(X,Y)=e^{\lambda}: \lambda = \log{ \left( \frac{|D(Y@X)|}{|D(X)|} \times \frac{|D(X@Y)|}{|D(Y)|} \right)^{\alpha}}
式中でXYはそれぞれ単語,D(X)Xの検索結果のスニペット集合,D(Y@X)D(X)の中でYを含むスニペット集合.論文中では検索結果の上位1000件を取得して使用している.また,\alphaの値は0.15としている.
この手法において問題となるのは,「apple」のような語で検索したとき,検索結果に様々な意味のappleの検索結果が混在することである.そこで,各検索結果をDMOZ Open Directory Projectで定義された最上位の13個のクラスに分類し,各クラスの文書集合に対してCODCを計算し,その最大値をXYの類似度とする.分類するにあたって,DMOZの各クラスに対応する文書集合があるので,それを基にSVMを作る.この手法をRCODCと呼ぶ.

実験

実験に用いるデータはR&G datasetとM&C datasetと呼ばれるもので,いずれも単語のペアとその類似度から成るデータである.
評価の際は,各手法の出力結果と正解データとの相関係数を求める.
評価の結果,手法1から4の中で最も良かったWebPMIでも,R&G datasetで0.32,M&C datasetで0.49という値であった.CODCはR&G datasetで0.77,M&C datasetで0.79と大幅に改善された.また,RCODCはR&G datasetで0.82,M&C datasetで0.81とさらに改善できていた.


-その他, 論文紹介
-

関連記事

【論文紹介】To Stay or to Leave: Churn Prediction for Urban Migrants in the Initial Period

Yang Yang, Zongtao Liu, Chenhao Tan, Fei Wu, Yueting Zhuang, Yafeng Li WWW 2018 ACM, PDF 概要 上海に移住してき …

From Skimming to Reading: A Two-stage Examination Model for Web Search

Liu, Yiqun Wang, Chao Zhou, Ke Nie, Jianyun Zhang, Min Ma, Shaoping In Proc. of CIKM 2014 http://dl. …

【論文紹介】Modeling Paying Behavior in Game Social Networks

Fang, Zhanpeng and Zhou, Xinyu and Tang, Jie and Shao, Wei and Fong, A.C.M. and Sun, Longjun and Din …

【論文紹介】LARM: A Lifetime Aware Regression Model for Predicting YouTube Video Popularity

Changsha Ma and Zhisheng Yan and Chang Wen Chen CIKM 2017 PDF 概要 YouTubeに投稿された動画の、投稿後の短時間(1日とか1時間)で得 …

Unexpected Relevance: An Empirical Study of Serendipity in Retweets

Tao Sun Ming Zhang Qiaozhu Mei In Proc. of ICWSM 2013 概要 Serendipityな情報とはどのようなものかを定義した論文.また,その定義に基づい …