毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/6/23【1日目】データを集める

180日間Webサービスを作り続けた記事を読んで感銘を受けたので、自分も何かやりたいな、と思っていました。

  • できるだけやったことがない分野で、
  • 180日間やっていける関心が強くて、
  • ネタ切れにならず将来役に立つもの

という条件で考えていたのですが、テキスト分析がちょうどやりたったのでこれをやることにします。今ならTwitterWebでいくらでもテキストを集められますし、180日間分析したら機械学習に応用できそうな良いスキルが身につきそうです。どうせならPVを一番集められそうな乃木坂メンバーの呟きを分析しようと思ったのですが、乃木坂のメンバーってTwitterやってないんですね。AKBで探したら45名ほど見つかりましたので、ひとまずAKBのメンバーの呟きを分析することにします。

 

ターゲット

Twitterのアカウントを見つけたのは次のメンバーです。 2018年度の総選挙の順位もつけています。

 

実践

Pythonで適当なコードを書いて、テキストを取得しようとしたのですが、どうもparamsに複数のアカウントを指定する方法がわからない。仕方ないので、人数分のスクリプトを書きました。ここで初めてシェルスクリプトを学んだのですが、これ便利ですね。

参考:pythonファイルを自動で実行

https://qiita.com/yuukiclass/items/53da5b284d695c5a5461

 

とりあえず、初日から頑張り過ぎても続かないので、今回はここまで得たテキストをUSER LOCALさんの提供しているサービスに投入して終わります。

 

結果

  • 本日AKBのメンバーが投稿した数は35件でした。
  • 頻出単語は
  1. ありがとう,5
  2. ROOM,5
  3. AKB48,5
  4. 総選挙,5
  5. 今回,5
  6. ラジオ,5

でした。

 

今回身につけた知識

shでのスクリプトを自動で実行する操作