毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/8/27【65日目】関数まで作ったのと要約の自動化をする

とりあえず、チャットボットを作っていきたいのですが、いろいろ調べているうちに時間がなくなってしまい、昨日のものを関数にしただけで終わってしまいました。

i_am = "I : {0}"
bot = "BOT : {0}"

inp = input("名前は?:")
send_message(inp)

def res(message):
    bot_message = '何か用?' + message
    return bot_message

def send_message(message):
    response = res(message)
    print(bot.format(response))

それで、もう一つの成果なのですが、いつも下の方に書いている今日のAKBの呟きですが、自動的に要約させました。

要約にはsumyというモジュールを使用しました。

pypi.org

コードはこんな感じです。一度MeCabを通したkaiseki.txtを読み込んでいます。 実行結果は下の方で。

from sumy.parsers.plaintext import PlaintextParser 
from sumy.nlp.tokenizers import Tokenizer 
from sumy.summarizers.lex_rank import LexRankSummarizer

text = "kaiseki.txt"
token = PlaintextParser.from_file(text, Tokenizer("english"))
sumarry = LexRankSummarizer()

youyaku = sumarry(parser.document, 1)

for sentence in youyaku:
    print(sentence)

今日の結果

今日のAKBの呟きは50件でした。 要約するとこんな感じでした。

飯野 雅 の 生誕 イベント ??
ダイヤモンド ZAi の 勉強 会 & 撮影 を し て  た ♪ 今回 は 自分 の 保有 し てる 株 や 気 に なっ て いる 株 について 深く 聞く こと が 出来  た (´∀`*) 近々 私 たち に 動き が ある かも 、 、 ☆ 最新 号 も 是非 チェック し て ね 〜 \(^ o ^)/…
た ー の しかっ た 〜 ?

そしてKH corderは今日はMySQLエラーで立ち上がりもしなかったです。。。

f:id:rimt:20180831230256p:plain

{'嬉しい': 7, 'よい': 3, '凄い': 3, 'うれしい': 2, '楽しい': 2, 'いい': 2, '可愛い': 2, 'やばい': 2, 'くさい': 1, 'すごい': 1, '優しい': 1, '面白い': 1, 'ない': 1, '深い': 1})
'日': 14, 'さん': 8, '月': 8, '嬉しい': 7, '時': 7, 'イベント': 6, '楽しみ': 6, '秘密': 5, '写真': 5, 'ん': 5, '今日': 5, '皆さん': 5, 'ちょ': 5, '人': 5, '部門': 4, '位': 4, '票': 4, 'こと': 4, 'ロケ': 4, 'の': 4, '誕生': 4, '大衆': 4,
'する': 22, '日': 14, 'なる': 10, 'くださる': 10, 'さん': 8, '月': 8, '嬉しい': 7, '時': 7, 'いる': 7, 'イベント': 6, '楽しみ': 6, 'てる': 6, 'くる': 6, '秘密': 5, '写真': 5, 'ん': 5, '今日': 5, '皆さん': 5, 'ちょ': 5, '人': 5, 'くれる': 5, '来る': 5,