毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/09/13【82日目】自然言語処理100本ノック、その1

次にやることが思いつかないので、ひとまず自然言語処理100本ノックをやって行きたいと思います。 www.cl.ecei.tohoku.ac.jp まずは000番目からです。 000 文字列を逆に表示する問題です。はいはい.reverse()を使えばいいんでしょ?と思いましたらは.reverse…

2018/09/13【82日目】chatbotで使ったコードを見直していく(後半)

後半の最初はピックルの読み込みから。 dataset = load_clean_sentences('both.pkl') dataset1 = dataset.reshape(-1,1) train = load_clean_sentences('train.pkl') test = load_clean_sentences('test.pkl') それから定義したモデルの読み込み。 model = d…

2018/09/12【81日目】chatbotで使ったコードを見直していく(前編)

ちょっと前から作り続けているchatbotをこのまま続けるにしろ、この辺で終わるにしろ、取り敢えずコードを見直していきたいと思います(自分で書いた訳ではないので)。 コードを見直していく まず、真っ先に見る必要があるのはここのデータの保存というです…

2018/09/11【80日目】会話のデータを増やしてみる

昨日の段階でなんとなくやりたいことが見えてきましたが、同じことしか話していなかったので、学習データが足りないのかと思って、会話データを300パターン用意してみました。 ちょっとやっていきましょう。 YOU: おつかれ ANSWER: 今日から7月です YOU: も…

2018/09/10【79日目】LSTMでbotをいじってみる

会話データをひとまず100個作りましたので、実装していきたいと思います。 コードはGithub上のものを参考にしています(というよりそのまま) github.com 01_preprocessing.pyの場所 from pickle import load from pickle import dump from numpy.random imp…

2018/09/09【78日目】会話データについて調べてみた

今回は簡単に会話データに関して調べました。 会話データを探す 英語の会話データはたくさんあるみたいですけどね。日本語だとなかなかないみたいですね。 機械学習に使えるチャットボットデータセット・ベスト15 gengo.ai この間リリースされたばかりのGoog…

2018/09/09【78日目】会話データを(手動で)作っていく

昨日の段階で、ある程度kerasの仕組みはわかってきましたので、そろそろ本格的に手を動かしていきたいと思います。 その前に、いちおうtweetのデータ5265件を使ってテキスト生成はしてみました。3世代目でこんな感じです。temperature: 0.5がギリギリ良さげ…