投稿日: CIKM 論文紹介

【論文紹介】LARM: A Lifetime Aware Regression Model for Predicting YouTube Video Popularity

Changsha Ma and Zhisheng Yan and Chang Wen Chen
CIKM 2017
PDF

概要

YouTubeに投稿された動画の、投稿後の短時間(1日とか1時間)で得られる情報から、長い時間(100日とか120時間)が経過したときの動画の再生数を予測する問題に取り組んでいる。再生数の伸び方をいくつかのパターンにK-meansで分類し、各パターンごとに回帰モデルを作成。再生数を予測したい動画がどのパターン当てはまるか予測したうえで、該当するパターンの回帰モデルを適用する。

再生数の伸び方分析

YouTubeの動画のdailyデータセットとhourlyデータセットを用意。dailyデータセットでは、各動画の1日ごとの再生数が投稿後100日間に渡って記録されている。hourlyデータセットでは、各動画の1時間ごとの再生数が120時間に渡って記録されている。以下ではdailyデータセットについてのみ述べる。dailyデータセットの動画数は28,190件。

各動画について、100日後の再生数に対するn日目(1<=n<=100)の再生数の割合を値とする100次元のベクトルを作成。このベクトルを使ってK-meansにより6つのクラスタに動画を分割して、再生数の6種類の伸び方を図示している。ほぼ線形に再生数が伸びていくクラスタが最も小さく、全体の4.5%の動画しか該当しなかった。投稿後5日程度で再生数の90%近くに達するクラスタが最も大きく、25.7%の動画が属していた。

Lifespan予測

動画投稿後100日目の再生数の50%または80%に到達するまでに要する日数を0.5-lifespan、0.8-lifespanと呼び、動画ごとにlifespanの予測を試みた。次の3カテゴリの素性を使ってregression treeで予測。(1)チャンネル:動画投稿者のチャンネル登録者数、チャンネルにある動画の総数、総再生数と総コメント数、(2)人気:推定対象の動画の投稿1日目の再生数、コメント数、like数、dislike数、(3)動画そのもの:動画のカテゴリと動画長。(2)で、動画投稿1日目の値を使っているのがポイントで、いかに投稿後の短時間でlifespanを予測できるかを評価している。

様々な素性の組み合わせで評価した結果、チャンネル登録者数、チャンネルの動画の総再生数、1日目の再生数などが有効であることが明らかになった。

再生数予測

学習データ内の動画集合を、K-meansにより再生数の伸び方に応じてk個(k=2~5)のクラスタに分割し、各クラスタで上述の素性を使って線形回帰モデルを構築。各クラスタに属する動画から最大の0.5-lifespanを選ぶことで、100日間がk分割される。再生数を推定したい動画の投稿後最初のl日間(l=1~7)のデータから、0.5-lifespanを推定し、例えばその値が40日であれば、40日を含むクラスタのモデルを使って、8日後~100日後の各日の再生数を予測するタスクに取り組んだ。実験の結果、既存研究よりも高い精度で再生数を推定できることを確認。

感想

再生数の伸び方分析のところで、K-meansでクラスタ数を6にした根拠が書かれていなかったので、思い切った決め方をするなと思った。その割に、再生数を予測するときはクラスタ数が2~5の場合を評価して、6を含めてないのが謎だった。


-CIKM, 論文紹介
-

関連記事

【論文紹介】 Through a Gender Lens: Learning Usage Patterns of Emojis from Large-Scale Android Users

Zhenpeng Chen, Xuan Lu, Wei Ai, Huoran Li, Qiaozhu Mei, Xuanzhe Liu WWW 2018 ACM, PDF 概要 性別による絵文字の使い …

Mining Query Subtopics from Search Log Data

Hu, Yunhua Qian, Yanan Li, Hang Jiang, Daxin Pei, Jian Zheng, Qinghua In Proc. of SIGIR 2012 http:// …

From x-rays to silly putty via Uranus: serendipity and its role in web search

Paul André Jaime Teevan Susan T. Dumais In Proc. of CHI 2009 http://dl.acm.org/citation.cfm?id=15187 …

Statistical Models of Music-listening Sessions in Social Media

Zheleva, Elena and Guiver, John and Mendes Rodrigues, Eduarda and Milić-Frayling, Nataša In Proc. of …

【論文紹介】Using Early View Patterns to Predict the Popularity of Youtube Videos

Pinto, Henrique and Almeida, Jussara M. and Goncalves, Marcos A. WSDM 2013 ACM, PDF 概要 YouTubeの動画の再生 …