毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/09/19【88日目】自然言語処理100本ノック、その6

この頃仕事が終電になることが多く、全然時間が取れませんが、せめて1時間だけでも。

24の続きからです。 正規表現の中に?Pというのがあって、これを指定すれば良さそうです。 〜〜までというのは、このよう([^=]\=)に書くみたいなので、|までを指定してあげれば良さそうです。

import re

r = re.compile(r'(File:(?P<filename>[^|]+)\|)')
A = r.findall(n21)
A[0]
('File:Battle of Waterloo 1815.PNG|', 'Battle of Waterloo 1815.PNG')

25問目 基礎情報を抜き出して、辞書を作る問題です。 基礎情報は|で始まってる=の後ろにvalueがある感じです。

{{基礎情報 国
|略名 = イギリス
|日本語国名 = グレートブリテン及び北アイルランド連合王国
|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>

今日も中途半端なところで終わってしまいましたが、また明日。

今日の結果

今日のAKBの呟きは84件でした。 要約するとこんな感じです。

少しお久しぶりの握手会楽しかったです☺️私服はこんなかんじでした(人頼み笑)""本日発表がありましたが、AKB4854thシングル選抜に選んで頂きましたー!!!わーーーーーい!!私の口からもお伝えしたいので突然ではありますが、このあと21:30-22:00の間で#showroomします???
"ありがとうございます!?
"握手会ありがとうございました(^^)今日はみんなから沢山パワーをもらいました!応援の言葉をかけてくれた方もいつも通り接してくれた方も、皆さんのその優しさで心が温かくなりました☆本当にありがとう。""握手会ありがとうございました!楽しい握手会になったかな…今日はゆうなぁで双子コーデ??
'嬉しい': 21, '楽しい': 16, 'いい': 4, '良い': 3, 'よい': 3, 'すごい': 3, 'かわいい': 2, '悲しい': 2, '凄い': 2, '多い': 2, '優しい': 2, 'おもしろい': 1, '悪い': 1, '強い': 1, '欲しい': 1, '明るい': 1, 'くさい': 1, '悔しい': 1, '面白い': 1, '寂しい': 1, '残り少ない': 1, '小さい': 1, '遅い': 1, 'っぽい': 1, 'めんどくさい': 1, '温かい': 1}
'アクシュカイ': 56, '今日': 36, '部': 33, '方': 22, '嬉しい': 21, '楽しい': 16, '会': 15, '幕張メッセ': 14, 'レーン': 14, '券': 12, 'たくさん': 12, '私': 10, 'ちゃん': 10, '写真': 10, '久しぶり': 10, '当日': 9, '増し': 9, 'の': 7, 'ん': 7, '選抜': 7, 'お話': 7, '好き': 6, '気': 6, '日': 6, 'さ': 6, '個別': 6, 'ファン': 6, 'サイン': 6, '一緒': 6, '気持ち': 6, 'さん': 6, 
'アクシュカイ': 56, 'する': 46, '今日': 36, '部': 33, '方': 22, '嬉しい': 21, '来る': 19, 'くれる': 18, '楽しい': 16, '会': 15, 'くださる': 15, '幕張メッセ': 14, 'レーン': 14, '券': 12, 'たくさん': 12, '使える': 11, '私': 10, 'ちゃん': 10, '写真': 10, '久しぶり': 10, 'いる': 10, '当日': 9, '増し': 9, '推す': 9, 'できる': 9, 'なる': 9, '会える': 8, '思う': 8, 'てる': 8, 'の': 7, 'ん': 7, '選抜': 7, 'お話': 7, 'ある': 7, '会う': 7, 'すぎる': 7, 'ける': 7, 

f:id:rimt:20180927023117p:plain