毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/7/13【21日目】辞書を修正していく

どうでもいいですが、本日新宿のブックファーストで行われた道重さゆみの握手会に行ってみました。さすがモーニング娘。で長年リーダーだったこともあり、愛嬌がとても良かったです(あと顏がかなり小さかったです)。 きっと、AKBのメンバーも順位が上に行…

2018/7/12【20日目 修正】コード修正

昨日のコードをprintしてみましたら、思っていたように動いてなかったので、修正します。 import numpy as np import pandas as pd import MeCab #辞書読み込み npjp = pd.read_csv('./akb_dic/np_jp.dic', sep=':', encoding='utf-8', names=('Tango','Yomi…

2018/7/12【20日目】各Tweetをネガポジ判定で得点化していく

昨日、各単語にスコアを割り当てることができましたので、そのスコアを合計し、tweetの内容を得点化したいと思います。 実装 辞書に単語があればスコアを返し、単語がなければ0を返すようにします。それで貯まった数値をsum関数で合計すればいいのではないで…

2018/7/11【19日目】Pythonではじめてのネガポジ判定

今日からネガポジ判定を勉強していきたいと思います。 簡単に説明しておきますと、ある単語がネガティブな言葉なのかポジティブな言葉なのかを判定し、得点化することをいうそうです。Weblioの辞書によると次のように定義されています。 ネガポジ判定とは、…

2018/7/10【18日目後半】MeCabに登録した辞書の影響を見てみる

MeCabに単語を登録したので、その影響を見ていきたいとおもいます。 まずは今日のAKBメンバーによる呟きから確認してみます。 今日の結果 今日の結果は37件でした。 呟かれたのはこんな感じです。 '嬉しい': 4, '楽しい': 3, 'すごい': 2, '多い': 2, '良い'…

2018/7/10【18日目前半】MeCabに単語を登録する

ずっと気になっていたことに、MeCabが単語を区切りすぎているのではないか? ということがありました。例えば、「AKB48」とという言葉をMeCabに渡すと、下記のようにAKBと48という単語に区切られてします。 $ echo "AKB48” | mecab AKB 名詞,一般,*,*,*,*,* 4…

2018/7/9【17日目】固有値と固有ベクトルの正体

固有値と固有ベクトル 曲がりなりにも対角化の意味がわかったところですが、また新たに固有値、固有ベクトルという意味がわからない単語が出てきました。今日はこちらを調べていきます。 公式 固有値はあるn行n列の正方行列Aに対して、列ベクトルxがある場合…