AKB曲を取得できましたので、歌詞の分析を行なっていきます。 ついでに比較対象としてモーニング娘。の歌詞も取得しました。
曲数はこんな感じです。
print("AKB曲数" + str(len(akb)) + "曲" ) print("モーニング娘。曲数" + str(len(mng)) + "曲" )
実行結果。
AKB曲数215曲 モーニング娘。曲数187曲
AKBはグループ全体では600曲以上あるらしいですが、公演曲とかソロ曲とかがあまりにも多すぎるので、歌マップのAKB48という項目の曲だけです。モーニング娘。も同様です。なので正しくは全曲ではないですね。
(ちなみにAKBはシングル56枚・アルバム9枚、モーニング娘。はシングル65枚・アルバム15枚を出しているそうです)
さっそく、分析していきます。
出てきた回数が多い単語
単純に単語の出現回数からいきます。 まずはAKBからです。
'の': 4762, 'て': 4102, 'に': 3962, 'は': 2876, 'た': 2626, 'を': 2530, 'が': 2398, 'で': 1692, 'も': 1584, 'ない': 1566,
次はモーニング娘。
'の': 1520, 'て': 1442, 'に': 1166, 'が': 815, 'ない': 790, 'を': 756, 'は': 751, 'も': 722, 'で': 717, 'た': 690,
単語というか助詞ですね。「の」「て」「に」が上位で使われていることは変わらないです。ただ、両者の間で30曲しか違わないはずなので、「の」に至っては3000回近くの差がありますね。そんなに「の」を多用するの? という感じですが。歌詞の長さもあると思いますので、歌詞の平均も見てみます。
AKBがこんな感じです。
count 215.000000 mean 547.786047 std 149.298518 min 187.000000 25% 439.000000 50% 521.000000 75% 616.500000 max 1167.000000
モーニング娘。がこんな感じ。
count 187.000000 mean 618.759358 std 275.102094 min 91.000000 25% 430.000000 50% 542.000000 75% 720.500000 max 1592.000000 dtype: float64
あれ、歌詞の長さで違いがないどころか、モーニング娘。の歌詞の方が長いみたいです。 秋元康が「の」を使いすぎなのか、つんくが「の」を使わなさすぎなのか、微妙ですね。
言われてみれば、モーニング娘。の歌詞に「の」ってそんなに入っていないですね。
単語の登場頻度を図にするとこんな感じです。 AKBの単語出現頻度
モーニング娘。の単語出現頻度
AKBの方が高いところから緩く落ちていますので、ボキャブラリーはAKBの方がありそうです。
ちなみにアイドル曲でよく言われている歌詞の登場人物は、男なのか、女なのか問題ですが、単純に一人称と二人称の回数を数えると次のとおりです。
AKBはこちらです。
'君': 772, 僕': 572, '私': 452, 'あなた': 312, 自分': 224, '俺': 28 'わたし': 16 'あたし': 4,
モーニング娘。はこちら。
'あなた': 296, '私': 224 '君': 90 '自分': 52 'わたし': 37 '僕': 23 'あたし': 7, 'ぼく': 5,
ここはかなり差が出ましたね。
単純に考えると私が女子目線で、僕が男子目線だとすると、AKBは男子目線の曲がかなり多そうです。
tf-idf分析
普通にtf-idf分析をしますと、yeah、wow、heyなどが高くなってしまい、あまり面白みがなかったので、恋愛要素ぽいものを15位まで手動で選びました。
AKBの恋愛要素を含んだ重要な単語。
('girls', 0.032457515712085029) ('boys', 0.032457515712085029) ('会い', 0.029689671728621778) ('kiss', 0.029172024361124684) ('大好き', 0.028971719783851463) ('you', 0.028759727099752171) ('ねえ', 0.028629196296447928) ('わたし', 0.026455529416768292) ('少女', 0.025939701711774787) ('女の子', 0.025196486825333219) ('恋する', 0.024648776121213377) ('なぜ', 0.024648776121213377) ('青春', 0.024521589986532547) ('抱きしめ', 0.024435625685345203) ('邪魔', 0.024378698800251054)
モーニング娘。の恋愛要素を含んだ重要な単語。
('girl', 0.03126793676580681) ('キライ', 0.03126793676580681) ('抱い', 0.030037272148532957) ('わたし', 0.028928658541153666) ('ダーリン', 0.02868507852792223) ('you', 0.028506864934155555) ('スキ', 0.027383569187113613) ('ねえ', 0.027188888468006812) ('乙女', 0.02714592267800376) ('boys', 0.026348928343460091) ('青春', 0.026216206446211521) ('キス', 0.025343315518613765) ('女の子', 0.024918328161495217) ('恋愛', 0.024854294668774618) ('大切', 0.024818265385892053)
結構面白そうな違いが出ました。 簡単に見ていきます。
AKBではgirlとboyは同列説
なんとgirlが両方ともトップです(AKBはboyと同一ですが)。基本的にAKBではboyとgirlは並列ですが、モーニング娘。の場合はほぼgirl単独ですね。
使用例 AKB
- Boys&Girls!
- CHERRYBOY,CHERRY CHERRYGIRL
- We're crazy girls
- You're lazy boys
- Lonely girl
- I'm Lucky girl
- ボンキュッ!ボンキュッ!BOMB GIRL
- BOYS&GIRLS,WOW WOW WOW WOW WOW
- ちょっとイカした SUMMER GIRL
- Boys&Girls! Be Ambitious!
- YES! YES! YES! POCKY GIRLS
AKBの世界ではキライはないけど大好きはある
AKBの世界にキライはほとんどありません。 赤ピーマンを食わず嫌いなだけです。その点、モー娘。は大嫌いがかなりあります、ただその分「大好き」もかなり多いです。メンヘラ感がありそうなのはモーニング娘。ですが、実際に重そうなのはAKBですね(勝手な妄想です)。
AKB
- 食わず嫌い
- ホントに大好きだから
- 大好きな歌を歌おう
- 大好きな車に乗って
- 大好きなのに (言葉にはできない)
- 大好きな君だ
- 大好きな人となう
- 君が 大好きだ
- 自分ですごく嫌い
- でも 嫌い,だって ジェラシー
- あんたなんてもう大キライ
- 土曜日なんて キライ キライ
- 大キライ 大キライ 大キライ 大スキ
- 大好き! 大好き! 大好き~
- 大好きって みんなに,叫びたいわ
- もう一度言うわ,大好きです
- 大好きなあなたと,ずっとこうしていたい
- I LOVE YOU,大好きよ
「You」と「ねえ」を多用しすぎ説
「You」と「ねえ」は両者とも助詞でもないのにかなり使用されています。アイドルの曲ですと、どうしても似てしまうんですね。
AKBの使用回数
ねえ:112回 you:104回
モーニング娘。の使用回数
ねえ:68回 you:210回
AKBの世界では悩みが多すぎる説
恋に悩みはつきものですが、それにしても悩みが多いのがAKBの世界です。70回も「なぜ」が出てきます。
使用例
- なぜ こんな距離を置くの?
- なぜか あの頃よりも
- なぜだか一人
- なぜだか笑ってた
- なぜつらい?
- なぜか 涙が溢れ出す
- なぜ 黙ってるの?
- なぜ?
- 今はなぜか歌詞が出て来ない
- 切ないのはなぜだ?
キリがないですが、ゲーテ並みに悩んでいます。 一方モー娘。もそれなりに悩んでいますが、選挙の日に外食することに悩んでるくらいです。
「抱」の後に何が続くか
これはn-gramで見てみましょう。
AKBの場合。
('抱きしめ', 'て'): 18, ('抱い', 'て'): 5, ('抱きしめよ', 'う'): 3, ('抱きつい', 'て'): 2, ('抱き', '寄せ'): 2, ('抱か', 'れ'): 2, ('抱か', 'ない'): 2, ('抱い', 'た'): 2, ('抱き合い', 'ながら'): 2, ('抱え込む', 'に'): 1, ('抱え込む', 'の'): 1, ('抱きしめ', ','): 1, ('抱きしめ', 'たい'): 1, ('抱きつい', 'た'): 1, ('抱きしめれ', 'ば'): 1, ('抱き合っ', 'て'): 1, ('抱きしめる', 'つもり'): 1, ('抱きしめ', 'た'): 1, ('抱え', 'て'): 1, ('抱きしめ', 'たく'): 1, ('抱き合っ', 'たら'): 1, ('抱き', 'たい'): 1, ('抱け', 'ば'): 1})
モーニング娘。の場合。
('抱きしめ', 'て'): 35, ('抱い', 'て'): 23, ('抱か', 'れ'): 8, ('抱き', 'よせ'): 3, ('抱きしめ', 'た'): 2, ('抱け', 'ば'): 2, ('抱か', 'れる'): 2, ('抱け', '諦める'): 2, ('抱き合っ', 'た'): 2, ('抱きしめ', 'られ'): 1, ('抱き', ','): 1, ('抱きしめ', 'に'): 1, ('抱く', 'BOYS'): 1, ('抱', '('): 1, ('抱き', 'ガム'): 1})
モーニング娘。は圧倒的に「抱きしめて」が多いですね。 「抱きしめて」と聞くと、ちょっと前に桐谷美玲が披露した『シャボン玉』の石川梨華が思い浮かびますね。AKBの方も抱きしめては意外と多いんですね。