おうちだいすき

自宅警備員からデータサイエンティストになった人の雑記的ななにか。

人を惹きつける文章には何が隠されている?文章の感情の揺れを測ってみた。

自分のブログ、もっと人に読んでもらいたいな〜〜〜。
ブログを書いていらっしゃる方であれば一度は思った事、ないでしょうか。
ありますよね?(迫真)

PV数上げるためにSEO対策したり、地道にフォロワー増やしたり。

こういった努力も大切かとは思うのですが、今回はよく読まれている文章には何が隠されているか、文章から読み取れる感情の動きに着目していくつか文章を採取し、調査してみました。

例えば、イケハヤさんのこちらの記事だとこんな感じです。
www.ikedahayato.com

項目 平均得点 標準偏差
タイトル -0.34 -
文全体 -0.49 0.22
f:id:hiro-i2:20181021110518p:plain

いい感じになんか揺れてます。
人を惹きつける文章にはこうした感情のアップダウンがあったりするのですかね。

今回はこんな感じで昨年よく読まれた記事などを中心にブログの文章における「感情の揺れ」を測りましたのでお話ししていきたいなと思います。

はじめに

「色んな文章の感情をスコアリングすると面白そう」と素敵なアイデアを頂いたのが本記事のきっかけです。
そして、仕事で試しに作った関数が結局使わなくなりましたので、綺麗に成仏させることが今回の記事の大きな目的です。
明確な解答を出すような記事ではありませんので予めご了承ください。
(そもそも明確な解答を出してこそ成仏するのではというツッコミは受け流します)

では、よろしくお願いいたします。

分析手法

感情の動きを測定するのに、東工大の高村先生が公開されてらっしゃる、「感情極性対応表」をお借りいたしました。 リンクは以下の通りです。

http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dic

おおまかな流れ

  • 分析したい記事を形態素解析する
  • 解析した文章と感情極性対応表を内部結合させる
  • 単語の一致が出てくるのでそのままスコアを足し合わせる
  • 一文一文、丹精込めて平均得点を取る
  • 一文おきの平均得点を時系列プロットする
  • 文書全体の平均得点と標準偏差を算出する

イメージとしてはこんな感じ。
例)今日はいい天気でとても嬉しい。

表.1 文章と辞書のがっちゃんこ
f:id:hiro-i2:20181021105533p:plain


一致しなかった単語の取り扱いについては色々考えたのですが、鋭利なグラフを描いて欲しかったので全て落としました。
この時点でダブって検出されてたりするので詳細まで突き詰めようとすると十分な検証が必要であることはお察しください。

感情極性対応表

感情極性対応表は約55,000語の単語について-1から1までの数字で得点がつけられています。
0をニュートラルな値として、1に近ければ近いほどポジティブ、−1に近ければ近いほどネガティブな得点となります。

感情極性対応表に登録されている品詞別の登録単語と得点の概要は以下の通りです。

表2. 感情極性対応表の品詞別概要
f:id:hiro-i2:20181021113904p:plain

つづいて、得点のヒストグラムがこちら

f:id:hiro-i2:20181021113939p:plain
図1. 感情極性対応表の得点ヒストグラム

全登録単語はおよそ55,000語あり、9割が0より小さい、つまりネガティブな単語として取り扱われております。
いろんな意味でネガティブになってきました。

因みになのですが「死ぬほど嬉しい」みたいな文章を得点づけると、大体0点くらいになります。
「死ぬほど」が「嬉しい」を強調していると認識できていないためです。

また、助動詞「ない」と形容詞「ない」が-1な上に重複ヒットしましたので今回は助動詞を除外した計算としています。

この辺りも更に深く詰めていくとより精度の高い感情が得点づけれそうです。

算出する文章について

今回は以下の記事から昨年度、よく読まれた記事プラスよく読まれなかった私の記事とプラスアルファで算出してみました。

note.mu

なぜnoteを選んだかと言うと、この10選が見易かったからというのと、有名人も一般人も割とフラットな感じがする印象を持ったためです。
他のブログサイトだと芸能人の記事が上がったりして文章に対して別の要素が絡んでそうでした。
なお、こちらの10選には漫画画像のみの記事もありましたので、そちらについては解析対象外としております。

いざ分析

『素人の写真がプロの20倍以上の値段で売れる理由』 えとみほさん

素人の写真がプロの20倍以上の値段で売れる理由|えとみほ(江藤美帆)|note

項目 平均得点 標準偏差
タイトル -0.45 -
文全体 -0.45 0.20

f:id:hiro-i2:20181021121837p:plain

昨年469いいねを獲得したえとみほさんの記事。 冒頭に挙げたイケハヤさんの記事と比較すると文ごとの標準偏差が0.02減りました。 わずかな差に見えますが、グラフの揺れ的には結構差があるようにも見えます。

実際、インスタで3,000いいねくらい付いたテーブルフォトをプロのクリエイティブディレクターに見せたら「シズル感がないからこの写真は広告には使えないですね」とあっさり言われたこともあった。

プロの定石で言えば、確かにそれが「正解」なんだろう。

終盤のこの部分で0ラインをグイッと超えました。 確かにマイナスな印象から「正解」というプラスのワードを使っていますね。ただ文の閉じ方を見るとこの後はマイナスな表現をしそうな予感。

分析ついでに文章に惹きこまれてしまって、ミイラ取りがミイラになってる感がありますねw
これが人を惹きつける文章なのか…

どんどんいきます。

『限界の足音』 生湯葉 シホ(shiho)さん

限界の足音|生湯葉 シホ|note
もうすでにタイトルで負のオーラがたっぷりです。
どんな感じか見てみます。

項目 平均得点 標準偏差
タイトル -0.59 -
文全体 -0.53 0.19

f:id:hiro-i2:20181021125053p:plain

全体的に低空飛行。
だけどいいね数は鬼の1676!!すごい!!(小並感)

最後にグイッと上がった文章がこちらでした。

その笑みが明るければ明るいほど、彼らの後ろにはしんしんと影が落ちてゆく

なるほど、国語はよくわかりませんが、なんか対比的な表現が切ないですね。全部読んでないからなんとも言えないですが、こういう表現が読者の心に刺さったのでしょうか。

『2017年後半に感動したビジネスモデルまとめ10個 #ビジネスモデル図解シリーズ』 チャーリーさん

2017年後半に感動したビジネスモデルまとめ10個|チャーリー|note
図解と書いてるし、ビジネスモデルが云々言ってるからあまり感情の揺れはなさそうな雰囲気です。

項目 平均得点 標準偏差
タイトル -0.22 -
文全体 -0.38 0.24

f:id:hiro-i2:20181021131029p:plain

ところがどっこい、タイトルの「感動」がプラス方面に引っ張っていたり、文中にも「期待」とか「面白い」がふんだんに使われていたからか、ここまでで一番プラス感情のある文章になっています。
たしかにビジネスライクな文章で前向きな事を言っとかないと「へぇ、そうなんだ」って気持ちにはならないかもです。

コーヒーブレイク

ここまで、昨年noteでよく読まれた記事についてピックアップしてきました。大体今が折り返し地点になったところで、ある方のブログの感情の揺れも見てみましょう。

tjo.hatenablog.com

ご存知、我らがデータサイエンティストを代表する大司教TJO氏でございます。(大司教is誰とか言われそう)
恐れ多いですが、TJOさんの感情を覗き見させてもらいます。
割とノリノリでこの記事を書いてらっしゃった印象を受けましたがどうでしょう。

項目 平均得点 標準偏差
タイトル -0.40 -
文全体 -0.43 0.13

f:id:hiro-i2:20181021131923p:plain

ブレ幅小さっ!!!
軽くネタバレしますと今回調査した記事の中で一番標準偏差も小さいのがこの記事でした。専門分野になるとやはり感情の検知が難しいのか、それともTJOさんの感情が…ここで止めておきます。

『【図解】赤文字・青文字はもう古い。細分化される私たちの新しい「カラー」』 最所あさみさん

【図解】赤文字・青文字はもう古い。細分化される私たちの新しい「カラー」|最所あさみ|note
ま た 図 解 か 。
しかしビジネスライクな文章は意外と感情が揺れると言う前例がありますのでどうなるでしょうか。

項目 平均得点 標準偏差
タイトル -0.41 -
文全体 -0.39 0.23

f:id:hiro-i2:20181021133109p:plain

出オチが半端ないですね。(感情的意味合いで)
いきなり「○ね」とでも書いたのかしら。
というわけで最初の文を見てみます。

「赤文字系」「青文字系」という言葉をご存知でしょうか。

知りません。(真顔)
どうやら、「言葉」の点数が-0.98でこやつがヒットした模様です。
逆にグッと上がったところは何が書かれていたのでしょう。

「おしゃれだね」「個性的だね」が彼女たちの喜ぶワードです。

「喜ぶ」がヒットして1側に振れたようです。
「おしゃれ」とか「個性的」はヒットしていなかった模様。

『幸せだって言ってんだから、みんな私を祝えバカ』 佐々木ののかさん

幸せだって言ってんだから、みんな私を祝えバカ|佐々木ののか|note
またずいぶん尖ったタイトルですね。
面白い結果が期待できそうです。

項目 平均得点 標準偏差
タイトル nan -
文全体 -0.40 0.28

f:id:hiro-i2:20181021134724p:plain

なんとタイトルの語句が1つも感情極性対応表にヒットしなかった模様。
ソースコードがまずかったかと思ったのですが、そもそも感情対応極性表には「不幸せ」は記載があるのに「幸せ」は入っていませんでした。何故。
しかし、そんな屈強を乗り越え、標準偏差は堂々の1位。
中盤くらいで上げて落としてるのもなかなかに興味深いです。

『10カ月ぶりの北京の風景が、まったく変わっていた件』 加藤貞顕さん

10カ月ぶりの北京の風景が、まったく変わっていた件|加藤貞顕|note
noteを運営する会社の代表、加藤貞顕さん。
文自体は少なく写真が多めだったのですが、どんな結果が得られるでしょう。

項目 平均得点 標準偏差
タイトル −0.16 -
文全体 -0.49 0.22

f:id:hiro-i2:20181021135919p:plain

なかなかに平均が低いですね。
「限界の足音」生湯葉シホさんについでワースト2位の文全体平均得点−0.49でした。
また、今回noteから選出してきた記事の中でも最もいいねが少なく199でした。
タイトルではプラスよりであるのに、全体的にマイナスな印象をもたらしていた事が意外と伸び悩んだ理由であったりするのでしょうか。

読者がタイトルからもつ印象と、実際の文章とのギャップがいいね数に繋がる…みたいな仮説が立てれそうです。

『バッドデザイン賞を勝手にノミネートしてみた-2017年度版-』 おりさん

バッドデザイン賞を勝手にノミネートしてみた-2017年度版-|おり|note
なんだか楽しそうな記事ですね。
覗いてみましょう。

項目 平均得点 標準偏差
タイトル −0.37 -
文全体 -0.49 0.22

f:id:hiro-i2:20181021140859p:plain

こちらも意外と低く、先ほどの加藤さんとほぼ同じ結果になりました。
小数点第3位まで見ると僅かにこちらのおりさんが上という結果に。
「バッドデザイン」を選出している記事だけにマイナスな名詞に引っ張られてしまったのかと推測します。
実際、タイトルがマイナスに引っ張られていますね。

まとめ

今回、文書から1文1文感情を算出して平均得点を出したり、標準偏差を出したり、プロットしたりという試みを行いました。
標準偏差が0.22を越えだすとプロットから感情の変動が激しくなる印象を受けました。

中には低空で安定しつつも所々でプラスを織り交ぜる手法もありました。
今回の結果から、タイトルと文書全体の感情に差があると伸び悩んでしまう恐れがあることも1つの仮説として立てられるのではと感じました。
人が読んで、タイトルから期待される感情の動きと文書の感情の動きのギャップが「人を惹きつける文章」になるならないを分けるのではという仮説です。

とは言え、今回採取したのはたった10記事前後の話でありますので、このテーマを深掘りするには採取する記事をさらに増やし、「低空飛行型」「激動型」みたいな感じで分類した上で更なる分析が必要なように感じました。
日進月歩で技術が進化するこの時代、この分野の研究も進めばまた面白くなりそうと思いました。(だれかやってくれ)

おまけ

他人の記事ばっか分析しててもアレなので自分の記事もやってみました。

loveshome.hatenablog.jp

当初はマイナスからプラスへ持っていく事を狙って書いたつもりでしたがどうなるでしょう。

項目 平均得点 標準偏差
タイトル −0.37 -
文全体 -0.43 0.19

f:id:hiro-i2:20181021143409p:plain

なんかもっとプラス締めしたかったですねw 欲を言えばもっとブレさせたかったw
人を惹きつける文章になるにはまだまだ精進が必要です。

さいごに

この記事で使用したプログラムについては特に公開するつもりはありませんが、要望があれば公開します。
また、「こんな記事も見て欲しい」という事であれば、2つ3つくらいならお引き受けしますのでお声かけ下さい。

また、分析をさせていただきました記事の投稿者様に大変感謝させて頂くとともに本記事を締めさせて頂きたく思います。
失礼いたします。

追記

大司教is誰ではなく、「大司教 is 何」だったそうです。ぐぬぬ…。