毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018-06-01から1ヶ月間の記事一覧

2018/6/30【番外編】MySqlの基礎を学ぶ2、Error Code: 1449 The user specified as a definerのエラーを解決させる

午前中からの続きです。 MySQLWorkbenchを起動できたら、左側のMANAGEMENTにあるServer Statusをクリックするとデータベースの状況がわかるとのことです。 とりあえず試しにデーターベースの一覧を取得してみます。 > SHOW DATABASES; 12:20:54 Get schemata…

2018/6/30【番外編】MySqlの基礎を学ぶ1、mysql.server startができない

今までTwitterから得た情報は全てテキストで扱っていたのですが、昨日の分析ごっこをするだけでも手間がかかって不便です。早めにデータベースを構築してSQLで扱えるようにしたいです。 なので、今日は1日かけてMySQLの基礎から学んで行こうと思います。あ、…

2018/6/29【7日目】Twitterで「楽しい」とつぶやているうちは上位にいけない説

昨日からの続きです。昨日はこういった図ができました。 全体では、 楽しい 嬉しい すごい という呟きが多いようです。 では、メンバーたちの呟きを個別に見ていきましょう。 個別の呟き件数 第10回AKB48世界選抜総選挙で一番順位が高い5位の岡田奈々(@okad…

2018/6/29【番外編】サッカーワールドカップの決勝トーナメントに進んだ時、みんなはどう思ったのか調べてみた

サッカーワールドカップで日本代表が2大会ぶりに決勝トーナメントに進みましたね。 やはり日本代表が活躍すると嬉しいですね。とは言え、ポーランド戦はなかなかモヤモヤする試合でした。ポーランド戦で負けても、勝点、得失点差、イエローカードの少なさで…

2018/6/28【6日目】頻出単語の数を調べてAKBの上位のメンバーがどんなことを呟いているのか調べる

単語の出現回数を数える 昨日の時点で品詞別のテキストの出力ができましたので、今回はこれらの単語の出てきた数を数えたいと思います。 単語の数を数えるのはCounterライブラリを使えばいいらしいです。とりあえず、入れてみます。 pip install collections…

2018/6/27【5日目】形態素解析で品詞の種類によって出力を分ける方法

昨日の分析結果ですと、どうしても名詞が目立ってしまいますので、面白くないですね。今日は今まで取得したテキストを使って、それぞれの品詞でどのような言葉が使われているのかを調べてみたいと思います。 MeCabのTaggerのオプションを変更する 今まで何も…

2018/6/26【4日目】Word-cloudを日本語に対応させる

昨日からの続きです。Word-cloudで日本語を表示させるには、日本語フォントを指定しないとダメなようです。 日本語対応を早速やっていきましょう。ただその前に、今日の結果を報告しておきます。 今日の結果 今日のAKBメンバーによる呟きは43件でした。 この…

2018/6/25【3日目】MeCabで形態素解析をする

昨日の時点で、Word-cloudの使い方がわかってきましたので、Word-cloudを使う条件である「半角で区切られた文字」を作成していきたいと思います。 MeCabに入門 実際のところ日本語は半角では区切れませんので、文を単語ごとに区切っていく形態素解析という解…

2018/6/24【2日目】word_cloudを使って可視化をする

word_cloud この画像、よく見ますね。テキストマイニングと聞いて、一番よくみる画像としてあげられると思います。 WordCloudというライブラリで簡単に作れる上、いつまでも画像がないのも寂しいので初めのうちに作ってしまいましょう。 Gitのページに行って…

2018/6/23【1日目】データを集める

180日間Webサービスを作り続けた記事を読んで感銘を受けたので、自分も何かやりたいな、と思っていました。 できるだけやったことがない分野で、 180日間やっていける関心が強くて、 ネタ切れにならず将来役に立つもの という条件で考えていたのですが、テキ…