投稿日: その他 論文紹介

【論文紹介】Characterizing and Predicting the Popularity of Online Videos

Chenyu Li, Jun Liu, Shuxin Ouyang
Access, 2016
IEEE, PDF

概要

中国のYouTubeに相当するYoukuの動画を対象にして、動画の投稿後7日間の再生数の推移から投稿後30日目の再生数を予測することを目的とした論文。動画投稿直後の再生数のバーストのパターンと、動画が投稿されて少し時間が経過してからのバーストの有無に基づいて30日後の再生数を予測している点に特徴がある。

初期のバーストパターンに基づく再生数予測

動画vの投稿後7日目の総再生数を7で割ると1日あたりの平均再生増加数が求まる。それをvの日々の実際の再生増加数と照らし合わせて、平均よりも大きく増加している日をバーストとして検出する。バーストした日を1、しなかった日を0とすると、7日間のバーストのパターンは多い順に1000000(全動画の55%)、1100000(31%)、0000000(9%)、その他となった。各パターンごとに、7日間の各日の前日からの再生数の増分を使って30日後の再生数を予測する回帰モデルを構築。
再生数を予測したい動画の最初の7日間のバーストパターンに応じて4種類モデルを使い分ける。

一定時間経過後のバーストの有無に基づく再生数予測

問題設定では動画の再生数の推移は最初の7日間しか観測できないが、8日目以降にバーストがあるかを動画ごとに58種類の特徴量を求めてrandom forestにより予測する。特徴量は動画の長さや動画投稿者の性別、7日目の総再生数など。
バーストがあると予測された場合、7日目の総再生数にある係数を掛けた値を、上述の回帰モデルによって予測された再生数に足し、最終的な30日目の再生数として出力する。係数は学習データにより求める。

評価

Youkuの動画約3万件を使用。半数を学習データにして回帰モデルのパラメータと、上述のバーストが存在するときに使用する係数を求める。半数をテストデータにして30日目の再生数をRMSEにより評価。
実験の結果、4パターンのいずれの場合も提案手法が従来手法(論文紹介)を上回った。投稿から一定時間経過した時点でのバーストの有無の検出精度は77.77%であった。
パターン数を5以上にした場合も評価したが、増やしたパターンに対応する動画数が少なく、過学習を起こしてしまうため、パターン数は4が最適であった。


-その他, 論文紹介
-

関連記事

Improving the exploration of tag spaces using automated tag clustering

Radelaar, Joni Boor, Aart-Jan Vandic, Damir Van Dam, Jan-Willem Hogenboom, Frederik Frasincar, Flavi …

Who uses web search for what: and how

Weber, Ingmar Jaimes, Alejandro In Proc. of WSDM 2011 http://dl.acm.org/citation.cfm?id=1935839 概要 Y …

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad White, Ryen W. Bennett, Paul Radlinski, Filip In Proc. of SIGIR 2013 http://dl.acm.o …

Identifying task-based sessions in search engine query logs

Lucchese, Claudio Orlando, Salvatore Perego, Raffaele Silvestri, Fabrizio Tolomei, Gabriele In Proc. …

Modelling User Interest for Zero-query Ranking

Liu Yang, Qi Guo, Yang Song, Sha Meng, Milad Shokouhi, Kieran McDonald, and W. Bruce Croft In Proc. …