毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

毎日テキストマイニングをサボってやっていたこと

久しぶりの更新になってしまいました。 180日間続けるといいつつ、半分の92日間しか継続できませんでした。しかし、毎日テキストマイニングをサボっている間、プログラミングをサボっていたわけではありません。毎日テキストマイニングを通して学習した深層…

2018/09/23【92日目】自然言語処理100本ノック、その10

とうとう自然言語処理100本ノックを初めて、10日目に達してしまいました。なかなか終わりが見えませんね。 可能な限り最後まで行いたいので、引続きやって行きます。今日から第4章の30問目からです。 30問目。 形態素解析をして結果を出力する問題です。これ…

2018/09/22【91日目】自然言語処理100本ノック、その9

29問目です。 APIを使って国旗のURLを取得する問題です。 一応ヒントらしきものがあって、imageinfoを読み出せばいいそうです(意味がわからないですが)。 テンプレートの内容を利用し,国旗画像のURLを取得せよ.(ヒント: MediaWiki APIのimageinfoを呼び…

2018/09/21【90日目】自然言語処理100本ノック、その8

26問目です。 25問目の結果からマークダウンの強調を表す''' を消す問題です。 取り敢えず、replaceをしてみます。 import json import json import re from pprint import pprint def extract_base_info(text): m = re.search("{{基礎情報[^|]+\|(?P<info_body>.+?)\n}</info_body>…

2018/09/20【89日目】自然言語処理100本ノック、その7

25問目からです。 よくよく調べて見たら、?P< a >というのはグループ名の指定だったんですね。 (?P...) 正規表現の丸括弧に似ていますが、グループによってマッチした部分文字列はシンボリックグループ名 name によってアクセス可能になります。グループ名は…

2018/09/19【88日目】自然言語処理100本ノック、その6

この頃仕事が終電になることが多く、全然時間が取れませんが、せめて1時間だけでも。 24の続きからです。 正規表現の中に?Pというのがあって、これを指定すれば良さそうです。 〜〜までというのは、このよう([^=]\=)に書くみたいなので、|までを指定してあげ…

2018/09/18【87日目】自然言語処理100本ノック、その5

この時間まで仕事が終わらず、日をまたいでしまったのですが、1問だけ解きたいと思います。 22問目の続きです。 次のようにタプルに追加しようと思ったのですが、タプルって追加できないんですね。 import re result = () section_reg = re.compile(r'(==+)(…