投稿日: その他 論文紹介

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! using word lengthening to detect sentiment in microblogs

Brody, Samuel
Diakopoulos, Nicholas
In Proc. of EMNLP2011
http://dl.acm.org/citation.cfm?id=2145498

概要

Twitterでは感情を表す際に「coooooollllll」のように、文字を重ねて書くことが多い。この論文では、文字を重ねて書かれる単語は感情を表す語であるかを調べたり、そのpositive、negativeの推定に取り組んだりしている。

データ

2011年3月9日の約50万ツイートを収集。約650万の単語が含まれていたが、そのうちの108,762単語は文字の繰り返しが存在する語であり、そのような語を含むツイートは全体の17.44%であった。

感情語との関連度

文字を繰り返して書かれる単語は感情を表す語であるかを、既存の感情語辞書を用いて調べる。
単語によって、繰り返しの多様性にはばらつきがあり、(niceであればniiiice、niccceeの3種類、coolであればcoooool、coollll、cooooollllllなど10種類、のような)多様性の高い単語ほど感情語辞書に登録されている割合が高かった。

極性推定

既存手法を用いて、感情語辞書に載っていない単語のpositive、negativeを推定。実験に用いた1,077単語のうち、辞書に載っていたのは217語だけであったため、極性を推定する重要性は高い。

手法によって求められたpositiveのスコアの高い50語、negativeのスコアの高い50語のそれぞれに人間がnegative、weakly-negative、neutral、weakly-positive、positiveから1つ正解をラベル付けして評価したところ、positive、negative共に推定精度は高く、positiveの方がより高い精度であった。手法によって求められたpositiveの上位5語はsee、win、way、gotta、summerで、negativeの上位5語はshit、niggas、dis、gettin、smh。


-その他, 論文紹介

関連記事

A comparison of visual and textual page previews in judging the helpfulness of web pages

Aula, Anne Khan, Rehan M. Guan, Zhiwei Fontes, Paul Hong, Peter In Proc. of WWW2010 http://dl.acm.or …

No clicks, no problem: using cursor movements to understand and improve search

Huang, Jeff White, Ryen W. Dumais, Susan In Proc. of CHI2011 概要 検索行動中のユーザのカーソルの動きに関する分析を行った。また、カーソルの …

【論文紹介】What Makes a Link Successful on Wikipedia?

Dimitrov, Dimitar and Singer, Philipp and Lemmerich, Florian and Strohmaier, Markus WWW 2017 ACM, PD …

【論文紹介】The automated acquisition of suggestions from tweets

Dong, Li and Wei, Furu and Duan, Yajuan and Liu, Xiaohua and Zhou, Ming and Xu, Ke AAAI 2013 ACM, PD …

On a Topic Model for Sentences

Balikas, Georgios and Amini, Massih-Reza and Clausel, Marianne In Proc. of SIGIR 2016 概要 通常のLDAでは文書ご …