2018/7/7【15日目】辞書型に変換して並び替えを行う

180日間テキストマイニング

昨日からの分析を続けていきます。ちなみに昨日の段階での重要そうな単語ランキングトップ10はこちらです。 'co' 'https' 'express' 'お願い' '今日' '原宿' '最後' 'brz' 'buenísimo' 'ch' ひとまずデータ量を増やすために、SQLを叩きます。2018年6月7日か…

2018-07-07

2018/7/6【14日目】AKBの呟やきをtf-idfで分析していく

180日間テキストマイニング

Scikit-learnの使い方も大方わかり始めたので、AKBメンバーの呟きに適用していきたいと思います。ファイルの読み込み tf-idfで分析をするのに、複数のドキュメントが必要なので、Pythonで複数のファイルを読み込めるようにしたいと思います。 Pythonでファ…

2018-07-06

2018/7/3【13日目】Scikit-learnのチュートリアルを行う。

180日間テキストマイニング

Tf-idf分析を実装していきたいとおもいます。 0から実装していく力はないので、機械学習ライブラリのScikit-learnを使用していきたいと思います。とはいえ、自分はScikit-learnに触るのは初めてなので、まずは公式のチュートリアルを行いたいと思います。か…

2018-07-05

2018/7/4【12日目】TF-IDF分析を理解する、まずは対数から

180日間テキストマイニング

昨日の段階で一通りデータの保存、検索の土台ができました。そこで、ずっとやりたかったTF-IDF分析を始めていきたいと思います。 TF-IDF分析とは自然言語処理の本を見ているとよく出てきます。Webを見てみると初歩中初歩の分析だとか書かれてるくらいです。…

2018-07-04

2018/7/3【11日目】SQL構文を覚えよう

180日間テキストマイニング

とりあえずAKBメンバーのデータを30件ずつ保存しました。データベースには1032件の呟きが保存されています。テーブルの中身はこんな感じです。 id,created_data,name,tweet,count_tweets,count_follows,count_followers,count_favolites,count_lists,users…