毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/09/15【84日目】自然言語処理100本ノック、その3

16 若干16番目が全然わからなかったのですが、ググってみたら結構コピペで出回っていますね。math.ceilで割る数を作るのがやたらと多かったのですが、もっといい方法があるだろうと思ってらNumPyにありました。こんな感じです。

import numpy as np

n = int(input())
with open("hightemp.txt") as f:
    text = f.readlines()

if type(n) == int:
    a = np.array_split(text,n)
    print(a)
else:
    print("数値じゃないと割れないよ")

array_split関数を使っています。

17 引続きpandasを使用します。

import pandas as pd
moji17 = pd.read_csv("hightemp.txt", 
                     header = None,
                     delimiter = " ")
syugou = set(moji17[0])

18 pandasが本当に便利ですね。 並び替え問題はsort_values関数を使います。デフォルトは昇順なので、ascending=Falseを指定して降順にしています。

moji18 = pd.read_csv("hightemp.txt", 
                     header = None,
                     delimiter = " ")
narabikae = moji18.sort_values([2], ascending=False) 
narabikae

19 文字数のカウント問題です。 value_countsメソッドを使うだけです。

moji19 = pd.read_csv("hightemp.txt", 
                     header = None,
                     delimiter = " ")
count = moji18[0].value_counts() 
count
山形県     3
山梨県     3
埼玉県     3
岐阜県     2
千葉県     2
群馬県     2
静岡県     2
愛知県     2
高知県     1
愛媛県     1
和歌山県    1
大阪府     1
Name: 0, dtype: int64

こんな感じになります。

ここから3章になります。まだ20問目。。。

20 pandasで初めてjsonファイルを開きましたが、エラーが起こるんんですね。

moji20 = pd.read_json("jawiki-country.json")
moji20
ValueError: Trailing data

lines=Trueと言うのを指定する必要があるみたいです。 なので正解は感じです。

moji20 = pd.read_json("jawiki-country.json", lines=True)
moji20.query('title == "イギリス"')

今日の結果

今日のAKBの呟きは46件でした。 要約するとこんな感じです。

"今日のK公演はこみちゃんの生誕祭でした?
そしてなんと❗️❗️❗️たまたまお揃いのペンを使いましたわぁぁぁぁいうれぴよ☺️☺️☺️明日も一緒に❤️❤️❤️❤️❤️#ちょちょ#ラブラブ#だいちゅき""こみ、お誕生日おめでとう!!!!生まれ変わったらこんな女の子になりたい!!!!""#うたコンありがとうございました!水森かおりさんとのコラボで「大阪ラプソディー」のバックダンサーをさせて頂きました!十夢さんとカップル?♡そしてセンチメンタルトレインでは自分らしいポーズ、、ということでもぐもぐみーおんしたよ…""この収録、本当に楽しかったです?
とても温かい公演ですごく楽しかったです︎☺︎♥そして今日は自分のポジションじゃなかったんですけど、たくさん学んだことがありました!ひとつひとつの与えられたチャンスを大事にできる…""#うたコンありがとうございました!水森かおりさんとのコラボでは大阪ラプソディーのバックダンサーとして出演させて頂きました☆ペアはとむおんでした♡#センチメンタルトレインいつもと違ってソロの決めポーズをそれぞれしたよ♪私…""この後19:30からNHKうたコンに出演させて頂きます!センチメンタルトレイン、いつもとはひと味違う予感、、☆見てね〜\(^o^)/""みなさん!!!舞台『マジムリ学園』では、バックステージツアーや、オープニングアクトなど、企画も盛り沢山です?
'楽しい': 5, '可愛い': 4, 'すごい': 3, '嬉しい': 2, '良い': 2, '面白い': 2, 'ダサい': 1, '気まずい': 1, '凄い': 1, 'よい': 1, '大きい': 1, '温かい': 1, 'ない': 1
'さん': 13, '日': 8, '公演': 8, 'ん': 7, '明日': 7, 'うた': 7, 'コン': 7, 'センチメンタルトレイン': 7, 'ちゃん': 7, '生誕': 6, '祭': 6, '今日': 6, 'チーム': 6, '楽しい': 5, '水森': 5, 'かおり': 5, '人': 5, '出演': 5, '私': 5,
'する': 27, 'さん': 13, 'せる': 10, 'てる': 9, '日': 8, '公演': 8, 'くださる': 8, 'こむ': 8, 'ん': 7, '明日': 7, 'うた': 7, 'コン': 7, 'センチメンタルトレイン': 7, 'ちゃん': 7, '見る': 7, '生誕': 6, '祭': 6, '今日': 6, 'チーム': 6, 'いただく': 6,

f:id:rimt:20180922003136p:plain