投稿日: その他 論文紹介

【論文紹介】A Peek Into the Future: Predicting the Popularity of Online Videos

Shuxin Ouyang, Chenyu Li, Xueming Li
Access, 2016
IEEE, PDF

概要

中国のYouTubeに相当するYoukuの動画を対象にして、動画の投稿後7日間の再生数の推移から投稿後30日目の再生数を予測することを目的とした論文。再生数のクラスの予測と再生数の数値の予測に取り組んでいる。

クラス予測

30日目の動画の再生数に応じて4つのクラスを設定:0以上100未満、100以上1,000未満、1,000以上10,000未満、10,000以上。動画ごとに、動画投稿後7日の間に得られる情報から69個の特徴量を計算し、random forestにより30日後の再生数が4クラスのどれに属するかを予測。
使用した特徴量は以下の5つのカテゴリから構成される。

  • Video property:動画のカテゴリや長さなど。
  • User statistic:動画投稿者がこれまでに投稿した動画数やフォロワー数など。
  • Content topic:各クラスに特徴的なタグやタイトル中の単語をいくつ含んでいるか。
  • Textual analysis:タイトルの長さやセンチメントなど。
  • Historical popularity:最初の7日間の日々の再生数の増分や7日目のコメント数など。

再生数予測

7日目のクラスと30日目のクラスが同じであれば、7日間の各日の前日からの再生数の増分を使って回帰により30日後の再生数を予測。クラスが違っていれば、7日目の再生数だけを使って回帰により予測。

評価

Youkuの約20万件の動画を使用。半数を学習用データにして回帰のパラメータを求め、残り半数で再生数の予測精度を検証。
クラス分類では、precisionが95%、recallが93%と高い精度を達成。RBFカーネルを使ったSVMやdecision treeとも比較し、random forestが最も高精度であることを示した。
再生数の数値予測では、従来手法(論文紹介)に比べて、特にクラスが変わる場合に精度の大幅な改善が見られた。つまり提案手法は途中で急激に人気の出る動画の再生数予測に優れている。
素性毎の重要度を調べると、7日目の再生数が最も重要であり、その他に1日目の再生数の増分、動画投稿者のフォロワー数、動画カテゴリなどが重要であった。


-その他, 論文紹介
-

関連記事

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing In Proc. of SDM 2013 概要 トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書 …

【論文紹介】 Through a Gender Lens: Learning Usage Patterns of Emojis from Large-Scale Android Users

Zhenpeng Chen, Xuan Lu, Wei Ai, Huoran Li, Qiaozhu Mei, Xuanzhe Liu WWW 2018 ACM, PDF 概要 性別による絵文字の使い …

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …

Using preference judgments for novel document retrieval

Chandar, Praveen Carterette, Ben In Proc. of SIGIR 2012 http://dl.acm.org/citation.cfm?id=2348398 概要 …

Analyzing and evaluating query reformulation strategies in web search logs

Huang, Jeff Efthimiadis, Efthimis N. In Proc. of CIKM2009 http://dl.acm.org/citation.cfm?id=1645966 …