毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/7/21【30日目】AKBにいるのなら「ちゃん」と呼ばれる存在になるより、「さん」と呼ばれる存在になった方が圧倒的にいい説

25日目に単語n-gramをせっかく作ったので、何か分析ぽいことをしたいと思います(ちょうど30日目ですし)。

n-gramの形式からは、下記のようにすれば、要素を摘出できるので、「ちゃん」と「さん」の組み合わせを見ていきたいと思います。

for i in bigram_list:
    if i[0][0] == 'も':
        print(i) 

実行結果(この()で括られた形式をタプルというそうですね。変更ができないそうです。あと、実行速度がリスト形式より少し早いそうです。)。

('も', '使える')
('も', 'ある')
('も', '当日')
('も', '当日')

2番目をしている例。

for i in bigram_list:
    if i[1][0] == 'も':
        print(i)    

実行結果。

('券', 'も')
('券', 'も')
('どちら', 'も')
('部', 'も')
('部', 'も')

こんな感じです。

それでは、各メンバーが「ちゃん」付けで呼ばれているのか、「さん」付けで呼ばれているのか見ていきます。

途中経過

まずは2-gramからやっていきます。

('ー', 'さん'): 30,
('りん', 'さん'): 18,
('なん', 'さん'): 10,
('菜', 'さん'): 8,
('テレビ東京', 'さん'): 8,
('横山', 'さん'): 8
('マネージャー', 'さん'): 8
('ん', 'さん'): 8
(中略)

2-gramだけだと「横山さん」なんかは綺麗に出力できていますが、「ーさん」なんかは誰のことか判別不能ですね。

3-gramも実行してみます。

('ゆき', 'りん', 'さん'): 17,
('り', 'ー', 'さん'): 15,
('あおき', 'ー', 'さん'): 14,
('あや', 'なん', 'さん'): 10,
('聖', '菜', 'さん'): 7,
('彩', '希', 'さん'): 6,
('ゆい', 'り', 'さん'): 5,
(中略)

こっちは綺麗に名前ごと摘出できています。 2-gramと3-gramと合わせると良さそうですね。

「さん」付けで呼ばれている勢

それでは結果です。若いメンバーの方が「ちゃん」と呼ばれる可能性が高いので、生まれ年も記載しています。一番右の数字はtweet内に出てきた回数です。

1996年:第94位:篠崎彩奈:('あや', 'なん', 'さん'): 10,
1992年:第6位:横山由依:('横山', 'さん'): 8
2000年:第31位:福岡聖菜:('聖', '菜', 'さん'): 7,
1997年:村山彩希:('彩', '希', 'さん'): 6,
1995年:第44位:佐々木優佳里:('る', 'ん', 'さん'): 5,
1992年:第32位:峯岸みなみ:('峯岸', 'さん'): 4,
1997年:第36位:加藤玲奈:('加藤', '玲奈', 'さん'): 4,
2001年:第65位:後藤萌咲:('萌', '咲', 'さん'): 4,
1997年:第12位:高橋朱里:('朱里', 'さん'): 3
1991年:第100位:大家志津香:('大家', 'さん'): 3,
1998年:第88位:大森美優:('ゆ', 'ぽん', 'さん'): 3,
2001年:安部若菜:('若菜', 'さん'): 2,
2001年:第9位:矢吹奈子:('奈子', 'さん'): 2,
2001年:大川莉央:('大川', 'さん'): 2,
1994年:第7位:武藤十夢:('十', '夢', 'さん'): 2,
2001年:人見古都音:('古都', '音', 'さん'): 2,
2001年:下口ひなな:('ひな', 'な', 'さん'): 2,
2000年:佐藤妃星:('妃', '星', 'さん'): 2,

「ちゃん」付けで呼ばれている勢

2002年:山邊歩夢:('あゆ', 'ちゃん'): 21,
2000年:山根涼羽:('ずん', 'ちゃん'): 9,
2003年:西川怜:('怜', 'ちゃん'): 8,
2001年:黒須遥香:('遥香', 'ちゃん'): 6,
1997年:北澤早紀:('さき', 'ちゃん'): 4,
1997年:稲垣香織:('香織', 'ちゃん'): 4,
1996年:第80位:青木詩織:('詩織', 'ちゃん'): 4,
1991年:第100位:大家志津香:('し', 'ー', 'ちゃん'): 4,
1999年:吉橋柚花('柚', '花', 'ちゃん'): 4,
1999年:大竹ひとみ:('ひとみ', 'ちゃん'): 3,
1997年:湯本亜美:('亜美', 'ちゃん'): 3,
1997年:田北香世子:('かよ', 'ちゃん'): 3,
2000年:浅井七海:('七海', 'ちゃん'): 3,
1997年:第5位:岡田奈々:('なぁ', 'ちゃん'): 3,
2004年:田屋美咲:('美咲', 'ちゃん'): 3,
2003年:田口愛佳:('ま', 'なか', 'ちゃん'): 3,
2000年:前田彩佳:('あやか', 'ちゃん'): 2,
1997年:第43位:西村菜那子:('菜那子', 'ちゃん'): 2,
2001年:第92位:山内瑞葵:('葵', 'ちゃん'): 2,
1996年:第58位:岡部麟:('麟', 'ちゃん'): 2,
2002年:本間麻衣:('麻衣', 'ちゃん'): 2,
2003年:千葉恵里:('恵里', 'ちゃん'): 2,
1998年:佐藤栞:('しおり', 'ちゃん'): 2,
2000年:庄司なぎさ:('なぎさ', 'ちゃん'): 2,
2001年:横山結衣:('結衣', 'ちゃん'): 2,
2004年:野田陽菜乃:('陽', '菜', 'ちゃん'): 2,
2002年:石綿星南:('星', '南', 'ちゃん'): 2,

圧倒的に「さん」付けで呼ばれるメンバーが100位以内にランクインされていますね。

「さん」付けで呼ばれるメンバーは90年代産まれが多いですが、2000年代産まれもチラホラ見受けられます。 特に下記の3人がこれからの世代を狙えるポジションにいるような気がします。

  • 2000年:第31位:福岡聖菜:('聖', '菜', 'さん'): 7,
  • 2001年:第65位:後藤萌咲:('萌', '咲', 'さん'): 4,
  • 2001年:第9位:矢吹奈子:('奈子', 'さん'): 2,

「ちゃん」の方にも90年代生まれはいますね。ただ、残念なことに100位以内にランクインしたメンバーが、12人中5名しかいないですね。

ここから生まれた説がこちら。

AKBにいるのなら「ちゃん」と呼ばれる存在になるより、「さん」と呼ばれる存在になった方が圧倒的にいい説

どうでもいいですが、新卒で入った後輩を「ちゃん」付けで呼んでいたのですが、いつの間にか貫禄が付きまくっており「さん」付けで呼ばざるを得ない状態です。やっぱり「さん」と呼ばれる存在になった方が良さそうです。

今日の結果

握手会2日目だったようで、109件の投稿がありました。かなり本気出してきましたね。 f:id:rimt:20180723234140p:plain

'嬉しい': 17, '楽しい': 13, 'いい': 7, '寂しい': 5, '可愛い': 5, '凄い': 5, '早い': 4, '暑い': 4, 'すごい': 4, '珍しい': 3, 'よろしい': 3, '遅い': 3, '面白い': 2, 'ない': 2, '遠い': 1, '優しい': 1, 'おしい': 1, '多い': 1, 'さみしい': 1, '幼い': 1, '良い': 1, 'よい': 1, 'やすい': 1, 'すっごい': 1, 'うれしい': 1, 'ぽい': 1, 'っぽい': 1, '危ない': 1})
 'アクシュカイ': 51, '部': 31, '今日': 27, 'ちゃん': 24, '日間': 24, 'たくさん': 19, '皆さん': 18, '嬉しい': 17, '方': 17, '大会': 15, 'こと': 15, '楽しい': 13, '時': 13, '時間': 13, 'レーン': 13, '人': 13, '日': 13, 'ん': 12, '今年': 11, 'ユニット': 10, '昨日': 9, '券': 9, 'お願い': 9, 'みなさん': 9, '当日': 8, '幸せ': 8, 'いい': 7, '幕張メッセ': 7,
'する': 54, 'アクシュカイ': 51, '部': 31, '来る': 31, '今日': 27, 'くださる': 27, 'ちゃん': 24, '日間': 24, 'たくさん': 19, 'ける': 19, '皆さん': 18, '嬉しい': 17, '方': 17, 'いる': 17, 'なる': 17, 'てる': 17, '待つ': 16, '大会': 15, 'こと': 15, 'くれる': 15, '楽しい': 13, '時': 13, '時間': 13, 'レーン': 13, '人': 13, '日': 13, '思う': 13, 'ん': 12, '会う': 12, '今年': 11, '頑張る': 11, 'ユニット': 10, 'ひる': 10,