毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/6/28【6日目】頻出単語の数を調べてAKBの上位のメンバーがどんなことを呟いているのか調べる

単語の出現回数を数える 昨日の時点で品詞別のテキストの出力ができましたので、今回はこれらの単語の出てきた数を数えたいと思います。 単語の数を数えるのはCounterライブラリを使えばいいらしいです。とりあえず、入れてみます。 pip install collections…

2018/6/27【5日目】形態素解析で品詞の種類によって出力を分ける方法

昨日の分析結果ですと、どうしても名詞が目立ってしまいますので、面白くないですね。今日は今まで取得したテキストを使って、それぞれの品詞でどのような言葉が使われているのかを調べてみたいと思います。 MeCabのTaggerのオプションを変更する 今まで何も…

2018/6/26【4日目】Word-cloudを日本語に対応させる

昨日からの続きです。Word-cloudで日本語を表示させるには、日本語フォントを指定しないとダメなようです。 日本語対応を早速やっていきましょう。ただその前に、今日の結果を報告しておきます。 今日の結果 今日のAKBメンバーによる呟きは43件でした。 この…

2018/6/25【3日目】MeCabで形態素解析をする

昨日の時点で、Word-cloudの使い方がわかってきましたので、Word-cloudを使う条件である「半角で区切られた文字」を作成していきたいと思います。 MeCabに入門 実際のところ日本語は半角では区切れませんので、文を単語ごとに区切っていく形態素解析という解…

2018/6/24【2日目】word_cloudを使って可視化をする

word_cloud この画像、よく見ますね。テキストマイニングと聞いて、一番よくみる画像としてあげられると思います。 WordCloudというライブラリで簡単に作れる上、いつまでも画像がないのも寂しいので初めのうちに作ってしまいましょう。 Gitのページに行って…

2018/6/23【1日目】データを集める

180日間Webサービスを作り続けた記事を読んで感銘を受けたので、自分も何かやりたいな、と思っていました。 できるだけやったことがない分野で、 180日間やっていける関心が強くて、 ネタ切れにならず将来役に立つもの という条件で考えていたのですが、テキ…