毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/09/18【87日目】自然言語処理100本ノック、その5

この時間まで仕事が終わらず、日をまたいでしまったのですが、1問だけ解きたいと思います。 22問目の続きです。 次のようにタプルに追加しようと思ったのですが、タプルって追加できないんですね。

import re

result = ()
section_reg = re.compile(r'(==+)(.)(==+)')
A = r.findall(n21)
A[0][0:2]
for i in range(len(A)):
    if A[i][0] == '====':
        result.append(A[i][1],3)
    elif A[i][0] == '===':
        result.append(A[i][1],2).replace(“=”,””)
    else:
        result.append(A[i][1],1).replace(“=”,””)

2つ以上の要素を追加するにはリストで渡すのが良いそうなので、最終的には次のようにするといいような気がします。

import re

result = []
r = re.compile(r'(==+)(.[^=]*)(==+)')
A = r.findall(n21)
A[0][0:2]
for i in range(len(A)):
    if A[i][0] == '====':
        result.append([A[i][1],3])
    elif A[i][0] == '===':
        result.append([A[i][1],2])
    else:
        result.append([A[i][1],1])
print(result)
[['国名', 1], ['歴史', 1], ['地理', 1], ['気候', 2], ['政治', 1], ['外交と軍事', 1], ['地方行政区分', 1], ['主要都市', 2], ['科学技術', 1], ['経済', 1], ['鉱業', 2], ['農業', 2], ['貿易', 2], ['通貨', 2], ['企業', 2], ['交通', 1], ['道路', 2], ['鉄道', 2], ['海運', 2], ['航空', 2], ['通信', 1], ['国民', 1], ['言語', 2], ['宗教', 2], [' 婚姻 ', 2], ['教育', 2], ['文化', 1], ['食文化', 2], ['文学', 2], [' 哲学 ', 2], ['音楽', 2], ['イギリスのポピュラー音楽', 3], ['映画', 2], ['コメディ', 2], ['国花', 2], ['世界遺産', 2], ['祝祭日', 2], ['スポーツ', 1], ['サッカー', 2], ['競馬', 2], ['モータースポーツ', 2], ['脚注', 1], ['関連項目', 1], ['外部リンク', 1]]

23問目 参照されたファイルを全て抜き出せという問題です。 次のような箇所ですね。

[File:City of London skyline from London City Hall - Oct 2008.jpg|thumb|250px|[[ロンドン]]はビジネス、文化、政治などを総合評価した[[世界都市#世界都市指数|世界都市ランキング]]で、ニューヨークに次ぐ世界第2位の都市と評価された<ref>[http://www.atkearney.com/documents/10192/4461492/Global+Cities+Present+and+Future-GCI+2014.pdf/3628fd7d-70be-41bf-99d6-4c8eaf984cd5 2014 Global Cities Index and Emerging Cities Outlook] (2014年4月公表)</ref>。]
import re

r = re.compile(r'(File.*)')
A = r.findall(n21)
A

これでいいんですかね?条件は満たしているような。。。問題が「メディアファイルを抜き出せ」なので、ファイル名を抜き出す必要があるんですかね? 続きはまた明日。

今日の結果

今日のAKBの呟きは82件でした。 要約するとこんな感じです。

"じゃんけん大会ありがとう?
名前入りの素敵な衣装を作ってもらったし、いつか3人でこの衣装を着て何か披露したいな、、…""今日はじゃんけん大会です✊✌️✋優勝目指して頑張ります??
姉妹での活動がまたできるといいな!!!!ヽ(;▽;)ノこれからも…""#じゃんけん大会応援してくださった皆さんありがとうございました!!負けちゃった〜(;▽;)けど楽しかった\(^o^)/せっかくこんなに可愛い衣装を作ってもらえたので、またこの衣装を着て姉妹で何ができたらいいな♡*゜For…""じゃんけん大会ありがとうございました???
{'可愛い': 12, '楽しい': 11, '嬉しい': 10, 'すごい': 7, 'いい': 6, 'くさい': 2, 'よい': 2, '優しい': 2, '凄い': 2, 'ない': 1, '正しい': 1, '有難い': 1, 'くい': 1, '新しい': 1, '悔しい': 1, 'よろしい': 1, '寂しい': 1, '愛しい': 1, '多い': 1, '弱い': 1, '青い': 1, '美味しい': 1, '浅い': 1})
 '大会': 37, '衣装': 26, 'ん': 26, '人': 14, '応援': 13, '可愛': ビーフォーティーエイト': 12, '楽しい': 11, '優勝': 11, '今日': 'ちゃん': 10, '披露': 10, 'こと': 10, 'さん': 10, '位': 10, '
'ける': 52, 'する': 48, '大会': 37, '衣装': 26, 'ん': 26, '人',可愛い': 12, 'エーケービーフォーティーエイト': 12, '楽しい',:今日': 11, '頑張る': 11, '嬉しい': 10, 'ちゃん': 10, '披露': 1,ん': 10, '位': 10, 'くれる': 10, '一緒': 9, 'くださる': 9, '負

f:id:rimt:20180926024754p:plain