毎日テキストマイニングをサボってやっていたこと

その他

久しぶりの更新になってしまいました。 180日間続けるといいつつ、半分の92日間しか継続できませんでした。しかし、毎日テキストマイニングをサボっている間、プログラミングをサボっていたわけではありません。毎日テキストマイニングを通して学習した深層…

2018-10-02

2018/09/23【92日目】自然言語処理100本ノック、その10

180日間テキストマイニング

とうとう自然言語処理100本ノックを初めて、10日目に達してしまいました。なかなか終わりが見えませんね。可能な限り最後まで行いたいので、引続きやって行きます。今日から第4章の30問目からです。 30問目。形態素解析をして結果を出力する問題です。これ…

2018-10-01

2018/09/22【91日目】自然言語処理100本ノック、その9

180日間テキストマイニング

29問目です。 APIを使って国旗のURLを取得する問題です。一応ヒントらしきものがあって、imageinfoを読み出せばいいそうです（意味がわからないですが）。テンプレートの内容を利用し，国旗画像のURLを取得せよ．（ヒント: MediaWiki APIのimageinfoを呼び…

2018-09-30

2018/09/21【90日目】自然言語処理100本ノック、その8

180日間テキストマイニング

26問目です。 25問目の結果からマークダウンの強調を表す''' を消す問題です。取り敢えず、replaceをしてみます。 import json import json import re from pprint import pprint def extract_base_info(text): m = re.search("{{基礎情報[^|]+\|(?P<info_body>.+?)\n}</info_body>…

2018-09-28

2018/09/20【89日目】自然言語処理100本ノック、その7

180日間テキストマイニング

25問目からです。よくよく調べて見たら、?P< a >というのはグループ名の指定だったんですね。 (?P...) 正規表現の丸括弧に似ていますが、グループによってマッチした部分文字列はシンボリックグループ名 name によってアクセス可能になります。グループ名は…

2018-09-27

2018/09/19【88日目】自然言語処理100本ノック、その6

180日間テキストマイニング

この頃仕事が終電になることが多く、全然時間が取れませんが、せめて1時間だけでも。 24の続きからです。正規表現の中に?Pというのがあって、これを指定すれば良さそうです。〜〜までというのは、このよう([^=]\=)に書くみたいなので、|までを指定してあげ…

2018-09-26

2018/09/18【87日目】自然言語処理100本ノック、その5

180日間テキストマイニング

この時間まで仕事が終わらず、日をまたいでしまったのですが、1問だけ解きたいと思います。 22問目の続きです。次のようにタプルに追加しようと思ったのですが、タプルって追加できないんですね。 import re result = () section_reg = re.compile(r'(==+)(…