投稿日: WSDM 論文紹介

Search engine click spam detection based on bipartite graph propagation

Li, Xin
Zhang, Min
Liu, Yiqun
Ma, Shaoping
Jin, Yijiang
Ru, Liyun
In Proc. of WSDM 2014
http://dl.acm.org/citation.cfm?id=2556214

概要

スクリプト等によって、特定のクエリに対してある検索結果を何度もクリックすることで検索順位を上げようとするスパム行為が問題になりつつあるので、そのようなクリックの特定を目的とした論文。
スパムクリックの検出手法として、ユーザとセッションから成る2部グラフを用いる方法と、頻出する検索行動パターンとセッションから成る2部グラフを用いる方法を提案。

使用データ

中国の検索エンジンの2011年12月の検索ログ。1日約80万件のクリックログをサンプリングして使用。

ユーザとセッションを用いたスパムクリック特定

ユーザがクエリを発行後30分をセッションとして設定。各セッションを、クエリ入力、クリック、スクロール、ページのクリックなど抽象化した行動のリストとして表現。
クエリ入力後に同じページを連続でクリックしているセッション、同一のクエリを連続で入力し続けているセッションなど5種類のセッションを、スパムセッションのシードとする。
ユーザとセッションから成る2部グラフを構築し、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

頻出する検索行動パターンとセッションを用いたスパムクリック特定

セッション内に特定の行動パターンが含まれていれば、そのセッションはスパムの可能性が高いという仮説に基づいた手法。
既存手法を用いて、頻出する検索行動パターンを全セッションから抽出し、頻出する検索行動パターンとセッションで2部グラフを構築。
一つ目の手法と同様に、シードに選ばれたスパムセッションにのみ初期値1を割り振り、他のノードは初期値0として値を伝播させる。収束時の値が0.9以上のセッションをスパムセッションとして抽出。

評価

各手法で、値が0.9以上のセッションから評価用にセッションをサンプリングし、人手で各セッションがスパムか否かをラベリング。その結果、いずれの手法も適合率は97%と高い値であった。
また、手法1では値が0.9以上のセッションは全体の2.1%、手法2では2.6%であったことから、手法2では適合率を落とすことなく再現率を上げられることが示された。


-WSDM, 論文紹介

関連記事

What are you looking for? An eye-tracking study of information usage in Web search

Cutrell, Edward Guan, Zhiwei In Proc. of CHI2007 http://dl.acm.org/citation.cfm?id=1240690 概要 デスクトップ …

Semantic Role Labeling of Emotions in Tweets

Saif M. Mohammad Xiaodan Zhu Joel Martin In Proc. of WASSA 2014 概要 これまでにも、ツイートに含まれる感情を推定する研究は行われてきたが …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …

Topic-Driven Reader Comments Summarization

Ma, Zongyang and Sun, Aixin and Yuan, Quan and Cong, Gao In Proc. of CIKM 2012 概要 ニュース記事のコメントをトピックごと …

Using information scent and need for cognition to understand online search behavior

Wu, Wan-Ching Kelly, Diane Sud, Avneesh In Proc. of SIGIR2014 http://dl.acm.org/citation.cfm?id=2609 …