投稿日:2017/06/11 更新日: WSDM 論文紹介

【論文紹介】Will This Paper Increase Your h-index?: Scientific Impact Prediction

Dong, Yuxiao and Johnson, Reid A. and Chawla, Nitesh V.
WSDM 2015
ACM, PDF

概要

2007年に発表された論文dは、論文dの中で最もh-indexの高い著者のh-indexを2012年までに増加させることができるか、を予想する問題に取り組んだ論文。6カテゴリの素性を使ってロジスティック回帰で予測。Precisionで0.854、Recallで0.711を達成。

素性

以下の6カテゴリの素性を使用。

  • Author:著者数、第一著者の論文数、論文の著者の中の最大h-index/論文の著者のh-indexの和、など。
  • Content:論文の属するトピックの人気度、論文の属するトピックにおける第一著者のauthority度、など。トピックは論文のタイトルとアブストラクトに対してトピック数100でLDA適用。
  • Venue:会議ごとの論文の平均被引用数など。
  • Social:論文の著者の中で、これまでの全共著者数の最大値、これまでの全共著者の平均h-indexの最大値、など。
  • Reference:論文中で引用している論文の平均被引用数など。
  • Temporal:論文の全著者の直近3年間の平均h-index、論文の第一著者の直近3年間のh-index、など。

評価

ArnetMinerと呼ばれるサービスに存在する1960年から2012年までの論文データを使用。2007年に発表された論文を対象にして、各論文の中で最もh-indexの高い著者のh-indexが2012年にその論文の影響でさらに上がっているかを予測するタスクを設定。予測手法にはlogistic regression、random forest、bagged decision treeを使用。

実験の結果、3手法間では大きな差はなし。ランダムに予測した場合よりも予測精度は大幅に上昇した。3手法いずれも、precision、recallともに0.8前後を記録。6カテゴリの中では、ContentとVenueの貢献度合いが高かった。論文の著者の最高h-indexが10以上、20以上、と増加するにつれて、予測精度は低くなる。また、予測結果を出すまでの期間を5年後ではなくより長くすると予測精度は高く、より短くすると低くなる。

この論文自体が、2019年の時点で著者のh-indexの増加に貢献しているかを予測したら、76%の確率でh-indexを増加させる、という結果が出た。

感想

被引用数そのものを推測する研究はあったが、実数値を予測する問題は難しいので、h-indexが増加するかという問題設定にしているのは上手いと思った。論文の著者の中で最大h-indexを持つ著者を対象にするのではなく、第一著者を対象にする方が自然なようにも思ったが、もしかしたらそれだとあまり良い結果が出なかったのかもしれない(あるいは、精度は出たが面白い考察ができなかった)。この論文自体も評価対象にしている箇所は、今それを書かれても評価のしようがないので、論文に書くべきことかは微妙だが、1段落でさらっと書いているだけなので、ちょっとした遊び心的な感じでウケは良いと思う。


-WSDM, 論文紹介
-

関連記事

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad White, Ryen W. Bennett, Paul Radlinski, Filip In Proc. of SIGIR 2013 http://dl.acm.o …

Semantic Similarity Between Search Engine Queries Using Temporal Correlation

S. Chien, and N. Immorlica In Proc. of WWW 2005 http://dl.acm.org/citation.cfm?id=1060752 目的 クエリログを用 …

【論文紹介】Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior

Althoff, Tim and Jindal, Pranav and Leskovec, Jure In Proc. of WSDM 2017 概要 スマホのArgusという活動記録アプリのログから …

Lessons from the Journey: A Query Log Analysis of Within-Session Learning

Carsten Eickhoff Jaime Teevan Ryen White Susan T. Dumais In Proc. of WSDM 2014 概要 ユーザの検索トピックに対する専門度は …

Who Will You “@”?

Gong, Yeyun and Zhang, Qi and Sun, Xuyang and Huang, Xuanjing In Proc. of CIKM 2015 概要 Twitterではリプライ …