毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/7/28【35日目】AKBでよくretweetされているのは誰か?

前にretweetをするのは心理的にハードルが高いのか?という疑問がありましたが、そもそも日本人はfavoriteを多く使う傾向にあるそうです。 いろいろな研究があるんですね。

(1) 日本語利用者は、フォロワー、フレンドの数は英語利用者よりも少ない。 (2) 日本語利用者は発言頻度が多く、「お気に入り(like)」を使う頻度も多い。 (3) 日本語利用者は、フォロー関係の相互性が高く、さらにフォロー数の多い人ほど相互性が高い傾向がある。

リツイートされる傾向も社会学や心理学でちゃんと研究されているようです。次のような論文がみつかりました。

https://www.jstage.jst.go.jp/article/shes/14/2/14_165/_pdf/-char/ja

  • おもしろツイートはいかに広まったか:事例研究による「じわる」プロセスの解明

http://jmic-weblab.org/ojs/index.php/jmic/article/view/26

AKBメンバーによる呟きにもいろいろ特徴が出てくると思いますので、まずはどのようなtweetがfavorite、retweetされているのかを調べていきます。

実践

まずはいつものように、MySqlからデータを取ってきます。今回は2018-05-27から2018-07-28の呟きを利用します。

単純にフォロワー数 / retweet数 or favorite数 * 100としてしまいますと、人気のメンバーがどうしても不利(非アクティブユーザーが多い)になってしまいますので、次のデータを参考にして、アクティブユーザーの割合になるようにフォロワー数は全体的に70%にします。

gaiax-socialmedialab.jp

SQLで書くとこんな感じです。

SELECT
name, count_followers, retweet, favorite, retweet /count_followers *100 ,favorite /count_followers *100, tweet
 FROM
 tweet
 WHERE
 created_data between '2018-05-27' and '2018-07-28';

SQL上でも計算できたんですね)

csv形式にデータを保存して、Pyhonでいろいろ試していきます。読み取りはこんな感じです。

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

ninkido = pd.read_csv('ninkido_70.csv',
                   sep=",", 
                   encoding='utf-8')
ninkido

実行結果。

 name    count_followers retweet favorite    retweet / (count_followers*0.7) *100    favorite /(count_followers*0.7) *100    tweet
0   48_asainanami   10037.0 175.0   789.0   2.4908  11.2299 #アイドル修業中♡公演\n来てくれて、見てくれて、\nありがとうございました???!\n\n...
1   48_asainanami   10037.0 200.0   1035.0  2.8466  14.7312 今日は #山根涼羽 ずんちゃんと、\nカフェに行ったりお買い物しました☕??\n大切な同期と...
(いか、省略)

行列の大きさはこんな感じです。

ninkido.shape
(2021, 7)

単純に一番retweet / favoriteされた呟き

コードはこんな感じでどんどんみていきます。

print("reweet最大値:" + str(ninkido["retweet"].max()))
print("favoriteの最大値:" + str(ninkido["favorite"].max()))
reweet最大値:6854.0
favoriteの最大値:34184.0

単純な多さではretweetとfavorite共に5位の岡田奈々の総選挙5位になった時の報告tweet です。

世界選抜総選挙\n75067票 ? 第5位 ?\n本当に本当に\nありがとうございます ! ...  

retweet率は5.7244 %、favorite率は28.5502%でした。

最大retweet率と最大favorite率

最大retweet率は8.9219%でした。最大でも10%いかないんですね。しかし、favoriteはなかなかの数値で最大favorite率は48.3312%でした。アクティブユーザーのほぼ半数がfavoriteしたんですね。ちなみに両数字とも武藤小麟の呟きが叩き出しました。

そして!十夢(さん)、選抜そして神7本当に本当におめでとう(ございます)?\n\nいつも十夢... 

reweet率最大値: 8.9219
favorite率の最大値:48.3312   

その他の平均とか

最大値だけでなく、他の数値もみていきます。まずはreweetの情報から

mean      210.881500
std       297.714912
min         9.000000
25%        66.000000
50%       121.000000
75%       245.250000
max      6854.000000

favoriteの情報はこちら。

mean      1418.403500
std       1655.654251
min         40.000000
25%        515.750000
50%        888.000000
75%       1688.500000
max      34184.000000

reweet率の情報。

mean        0.604043
std         0.736014
min         0.007000
25%         0.133675
50%         0.341450
75%         0.768075
max         8.921900

favorite率の情報。

mean        3.936984
std         4.076879
min         0.080100
25%         1.165650
50%         2.492700
75%         5.365275
max        48.331200

平均してretweet率が高いメンバー

では、個人的に一番気になっていた平均してretweet率が高いメンバーをみていきます。

こんなsqlで各メンバーの平均を出しました。

SELECT
NAME, AVG(retweet /count_followers *100 ), AVG(favorite /count_followers *100)
 FROM
 tweet
 WHERE
 created_data between '2018-05-27' and '2018-07-28'
 group by
 name;

結果はこんな感じです。 retweet率の平均

48_asainanami:1.41244333%
MizukiYamauchi:1.25593387%
akb48kururun:1.21389057%
muto_orin:1.16577414%
akb4816ayaka:1.09361852%

favorite率の平均

MizukiYamauchi:8.14055000%
akb48kururun:7.35500566%
muto_orin:7.28628276%
akb4816ayaka:7.21077778%
48_asainanami:7.20799667%

100位以内のメンバーは92位:山内瑞葵 @MizukiYamauchiだけでした。 やはり率だけでみてしまうとフォロワー数が少ない方が有利ですね。

ちなみにフォロワー数は次の通りです。

48_asainanami:10037
akb48kururun:6480
akb4816ayaka:7981
muto_orin:10632
MizukiYamauchi:14167

だいたいの傾向がわかってきましたので、明日はretweet / favoriteされた呟きがどうゆうのかを調べていきたいと思います。

今日の結果

今日のAKBメンバーによる呟きは40件でした。 湘南と抹茶という単語がやや気になります。 f:id:rimt:20180729120908p:plain

'可愛い': 9, '嬉しい': 5, '凄い': 4, 'ない': 3, '楽しい': 3, 'つらい': 2, 'すごい': 2, 'かわいい': 2, 'かっこよい': 2, 'いい': 2, '低い': 1, '恥ずかしい': 1, '珍しい': 1, '面白い': 1, 'づらい': 1, '美味しい': 1, '優しい': 1, '早い': 1, 'めずらしい': 1, 'くるしい': 1, 'しんどい': 1, '苦しい': 1, '熱い': 1, 'はやい': 1})
'さん': 13, '可愛い': 9, '湘南': 7, 'こと': 6, '笑': 6, '日': 6, '抹茶': 6, '嬉しい': 5, '今年': 5, 'お願い': 5, '月': 5, '今日': 5, '天使': 5, '凄い': 4, '方': 4, '時間': 4, 'カフェ': 4, 'ない': 3, 
'する': 30, 'さん': 13, '可愛い': 9, '行く': 9, '湘南': 7, 'くださる': 7, 'こと': 6, '笑': 6, '日': 6, '抹茶': 6, 'くれる': 6, 'すぎる': 6, 'くる': 6, '嬉しい': 5, '今年': 5, 'お願い': 5, '月': 5, '今日': 5, '天使': 5, 'いる': 5, '来る': 5, '会う': 5,

参考文献

石井 健一  (2011-08) , マイクロブログTwitter における日本人利用者の特徴  Department of Social Systems and Management Discussion Paper Series;no.1277

https://www.researchgate.net/publication/283902035_maikuroburoguTwitter_niokeruribenrenliyongzhenotezheng