投稿日:2018/05/10 更新日: WWW 論文紹介

【論文紹介】VizByWiki: Mining Data Visualizations from the Web to Enrich News Articles

Allen Yilun Lin, Joshua Ford, Eytan Adar, Brent Hecht
WWW 2018
ACM, PDF

概要

ニュース記事に関連した画像をWikimediaから見つけて、ニュース記事を補完することを目的とした論文。テキストに画像を補完するこれまでの研究では、多くの人手を要する、テキストのドメインが限定的、画像が地図だけなど限定的、といった問題点があったが、この論文ではこれらのいずれの問題点も解消している。
デモが公開されている:http://www.psagroup.org/projects/vizbywiki

画像補完の流れ

大きく分けて以下の3ステップから成る。

  1. ニュース記事と関連のあるWikipediaの記事から補完の候補となる画像を抽出
    既存手法を用いて、ニュース記事にとって重要な単語が見出しとなっているWikipediaの記事を集める。それだけでは記事数が少ないので、重要な単語と関連のある単語が見出しのWikipedia記事も集める。そのようにして集まったWikipedia記事中のすべての画像を補完の候補画像として抽出する。
  2. 候補画像から不適切な画像を削除
    この研究では、ニュースと関連のあるデータを可視化した画像を補完することを目的としているため、建物を写した写真などは候補画像から除く必要がある。そのために、キーワードベースのフィルタリング(「photo」などのタグが付いた画像を削除)をしたのち、画像特徴量(CNNの中間層の出力を使用)をSVMの素性とした適切・不適切の分類を行う。
  3. 候補画像のランキング
    ステップ2で残った候補画像を、learning to rankにより有用度の高い順にランキング。テキストベース(画像が含まれていたWikipediaの記事のテキスト)と画像ベースの特徴量を使用。learning to rankの学習用データを作成するために、クラウドソーシングを利用。ニュース記事を読ませて、そのニュース記事に対して抽出された候補画像それぞれに有用度を4段階で評価させた。

評価

多様なトピックから選んだニュース記事100本を使用。クラウドソーシングの結果、4段階評価で平均スコアが1(somewhat useful)以上の画像が存在するニュース記事は約半数、平均スコアが2(useful)以上の画像が存在するニュース記事は約25%であった。
nDCG@3で0.77という高い値を記録。learning to rankではテキストと画像の両方の特徴量を使うよりも、テキストだけを使った方がランキング精度が高かったというのが特徴的な結果。ステップ2の時点で、残った画像はグラフ等が多く、画像特徴量的には似たような画像が多かったので、画像の情報を使うことで精度が悪化した。


-WWW, 論文紹介
-, , ,

関連記事

Supporting Complex Search Tasks

Ahmed Hassan Awadallah Ryen W. White Patrick Pantel Susan T. Dumais Yi-Min Wang In Proc. of CIKM2014 …

【論文紹介】Exploiting Geographical Influence for Collaborative Point-of-Interest Recommendation

Ye, Mao and Yin, Peifeng and Lee, Wang-Chien and Lee, Dik-Lun SIGIR 2011 ACM, PDF 概要 POIに対するユーザの興味、友 …

Mining long-term search history to improve search accuracy

Tan, Bin Shen, Xuehua Zhai, ChengXiang In Proc. of KDD2006 http://dl.acm.org/citation.cfm?id=1150493 …

Understanding the importance of location, time, and people in mobile local search behavior

Teevan, Jaime Karlson, Amy Amini, Shahriyar Brush, A. J. Bernheim Krumm, John In Proc. of MobileHCI …

From Skimming to Reading: A Two-stage Examination Model for Web Search

Liu, Yiqun Wang, Chao Zhou, Ke Nie, Jianyun Zhang, Min Ma, Shaoping In Proc. of CIKM 2014 http://dl. …