投稿日:2018/05/11 更新日: WWW 論文紹介

【論文紹介】To Stay or to Leave: Churn Prediction for Urban Migrants in the Initial Period

Yang Yang, Zongtao Liu, Chenhao Tan, Fei Wu, Yueting Zhuang, Yafeng Li
WWW 2018
ACM, PDF

概要

上海に移住してきた人が、2週間以内に上海を去る(leaving migrants)か、2週間を超えて滞在する(staying migrants)かを、携帯電話の通話ログから予測することを目的とした論文。通話ログはChina Telecomという会社から提供されたものを使用。

データセット

2016年9月の通話ログを使用。上海に移住してきた人は、上海ローカルの電話番号を持つことになる。9月の最初の4日間に通話ログがなく、5日以降に通話ログが存在する人を、上海に移住してきた人として抽出。9月20日以降に通話ログがない人をleaving migrants、20日以降もログがある人をstaying migrantsとする。約34,000名のstaying migrantsに対して、leaving migrantsは約1,500名であった。また、ユーザの出身地情報も参照できて、出身地が上海の人をlocalsとして180万人抽出。

ユーザの分類

以下の4カテゴリの特徴量を使用。

  • Ego networks
    ユーザをノード、通話をしたユーザ間に枝が張られるグラフを作成し、ユーザから枝が張られている人の平均年齢や同性の割合などを計算。
  • Call behavior
    平均通話時間や通話相手の出身地の多様性など。
  • Geographical features
    通話するたびに緯度経度も記録されるので、ユーザの活動の中心地や通話間の平均移動距離などを計算。
  • Housing price features
    ユーザが活動しているエリアの1平米あたりの平均不動産価格や、通話相手の場所の平均不動産価格など。

論文では、分類の評価をする前に、上記のいつくかの特徴量について、leaving migrants、staying migrants、localsの間で違いがあることを示している。

評価

まずはlocalsとmigrantsの分類タスクを行った。localsが圧倒的に多いので、migrantsが正しく分類できたかを評価している。各ユーザは(migrantsであれば移住後の)2週間の会話ログを使って上記の特徴量を計算。分類の結果、最も精度が高いのはRandom forestを使った場合で、precisionは0.2355、recallは0.8397であった。
次に、staying migrantsとleaving migrantsの分類タスクを行った。こちらも前者が圧倒的に多いので、後者の分類精度を評価し、Random forestを使ったときのprecisionが0.1597、recallが0.6659という結果であった。各特徴量の重要度を求めたところ、通話相手のユニーク数が最も重要であった。2番目と3番目に重要だったのが不動産価格に関する特徴量であった点が特徴的な結果。

感想

携帯電話の通話履歴を使うというのが、なんとも大胆なアプローチで、日本では到底できそうにない(少なくとも論文化はできなさそうな)研究。わざわざ電話番号まで取得しておきながら、2週間以内に去っていく人がどういう人なのかは気になった。地元から出てきたけれど夢が叶わず帰った、というにはあまりにも短い期間なので。
あと、通話相手や通話場所の情報まで使っているのなら、通話内容まで使ってしまえばいいのではと思った。音声からテキストへの変換精度の問題もあるので、難しいかもしれないが。


-WWW, 論文紹介
-,

関連記事

AutoWeb: automatic classification of mobile web pages for revisitation

Liu, Jie Xu, Wenchang Shi, Yuanchun In Proc. of MobileHCI 2012 http://dl.acm.org/citation.cfm?id=237 …

【論文紹介】 Through a Gender Lens: Learning Usage Patterns of Emojis from Large-Scale Android Users

Zhenpeng Chen, Xuan Lu, Wei Ai, Huoran Li, Qiaozhu Mei, Xuanzhe Liu WWW 2018 ACM, PDF 概要 性別による絵文字の使い …

The Last Click: Why Users Give up Information Network Navigation

Aju Thalappillil Scaria Rose Marie Philip Robert West Jure Leskovec In Proc. of WSDM 2014 概要 リンクをたどっ …

【論文紹介】Exploiting ranking factorization machines for microblog retrieval

Qiang, Runwei and Liang, Feng and Yang, Jianwu CIKM 2013 ACM, PDF 概要 入力として与えられたクエリに対してランキングされたツイートのリ …

Characterizing the influence of domain expertise on web search behavior

White, Ryen W. Dumais, Susan T. Teevan, Jaime In Proc. of WSDM 2009 http://dl.acm.org/citation.cfm?i …