毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/09/15【84日目】自然言語処理100本ノック、その3

やっと2章へ行きます。 10番からです。

with open("hightemp.txt") as f:
    text = f.readlines()
    
print(len(text))

Pythonはこうですね。Unixはどうなんでしょう。今回はちょっとパスで。そういえば、pythonでpassって処理があるんですね。今日知りました。

11

with open("hightemp.txt") as f:
    text = f.read()
    henkan = text.replace("\t", " ")
    
print(henkan)

replaceを使った変換は簡単ですね。

12 1列目と2列目をループで回して、appendしていく問題だと思いますが、面倒くさそう。pandasでやってしまします。

import pandas as pd

df = pd.read_csv("hightemp.txt”, header = None, delimiter = " ")
df[0].to_csv("col1.txt",index=False, header=False)
df[1].to_csv("col2.txt",index=False, header=False)

楽。

13 変わらずpandasで。

files = []
files.append(pd.read_csv("col1.txt"))
files.append(pd.read_csv("col2.txt"))
df = pd.concat(files, axis=1)
df.to_csv("col3.txt",index=False, header=False)

pd.concatはリストを結合する関数ですね。axis=1を指定しないと1列のデータフレームになります。

14

n = 5
df.head(n)

15

n = 5
df.head(-n)

これでいいのですかね?なんか違うような気がする。 Pythonだけでやっても、思ったよりも全然進まないですね。

今日の結果

今日のAKBの呟きは52件でした。 要約するとこんな感じです。

さんの動画をチェックして!#TikTok""365日の紙飛行機を歌わせていただきました!夜も出させていただきます☺︎♡#Mステ#ウルトラFES""さぁ、、下尾がするか、萌咲がするのか…✊✌️?
"今日は#MステウルトラFESに出演します☆お昼と夜2回出るのでみんな見てくださいね〜♪♪""過ぎてしまったんですけど、1年前の9月13日は、あゆが初めてAKBINGOさんの収録に参加させていただいた大切な日だったんです?✨AKBINGOさんを見てあゆの事を知ってくれた方もいるし、あゆ自身もAKBINGOさ…""365日の紙飛行機歌わせていただきました?
#mステ#mステウルトラfes#akb48#365日の紙飛行機#新衣装""#MステウルトラFES2018お昼に365日の紙飛行機、夜に恋するフォーチュンクッキーを歌わせて頂きました(^^)見てくれた皆さんありがとうございました〜♪♪写真はタモリさんと♡*゜""たっちゃんのアカウントでTikTokしました!思いもよらない展開が…笑みてくださいね!""二回公演ありがとうございました!あっという間だったなぁ。また早く公演がしたいです。今日は4メンバーの寝顔をついにGETしたので載せますね?❤️#田屋美咲#石綿星南"美味しいカレーパンが…食べたい…中に卵入ってるやつ…"当日は私がじゃんけんします?
'楽しい': 4, '可愛い': 3, 'すごい': 2, '強い': 2, 'いい': 2, 'かわいい': 2, 'ない': 1, '温かい': 1, '凄い': 1, '難しい': 1, '濃い': 1, 'うれしい': 1, '甘い': 1, 'すっごい': 1, 'おもろい': 1, '多い': 1, '嬉しい': 1, 'もったいない': 1, '早い': 1, '美味しい': 1
'ステ': 15, 'ウルトラ': 12, '写真': 9, '今日': 9, 'さん': 8, 'サンビャクロクジュウゴニチノカミヒコウキ': 8, '夜': 8, 'ちゃん': 7, '出演': 7, 'エーケービーフォーティーエイト': 6, '日': 6, 
'する': 34, 'ステ': 15, 'せる': 15, 'ウルトラ': 12, 'くださる': 12, '見る': 10, '写真': 9, '今日': 9, 'いただく': 9, 'さん': 8, 'サンビャクロクジュウゴニチノカミヒコウキ': 8, '夜': 8, 'ちゃん': 7, '出演': 7, 

f:id:rimt:20180920235832p:plain