毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/09/09【78日目】会話データについて調べてみた

今回は簡単に会話データに関して調べました。

会話データを探す

英語の会話データはたくさんあるみたいですけどね。日本語だとなかなかないみたいですね。

機械学習に使えるチャットボットデータセット・ベスト15

gengo.ai

この間リリースされたばかりのGoogle DatasetSearchにも日本語の会話はなさそうです。

https://toolbox.google.com/datasetsearch

日本語でもいろいろな言語研究がされていますので、会話データの1つくらいありそうですが、どうなんでしょうかね?

利用可能なデータ | AIS

研究目的で貯蓄されたデータでしたら、Childsというのがありました 子どもの言語取得過程を追っているようです。

Japanese Corpora

こちらのDatasetを見てみましたけど、大阪弁やどこかの方言の会話データがあって面白かったです。もともと日本での会話研究は方言研究で発展してきたそうです。

それと、違うサイトですが、日本語学習者の学習記録としての会話データもありました。

nknet.ninjal.ac.jp

とは言え、やっぱり自分で作るしかないのかな?という感じですね・

いちおう会話データを研究する取り組みがあり、会話データの収集方法については『「基本的な文字化の原則(Basic Transcription System for Japanese:BTSJ)』というのがあるらしいです。

BTSJについて

こんな感じで明確化されています。

 BTSJは、主に、以下の点に注意して考案された。 1)研究の視点を得るために、読みやすいものであること。 2)定量的分析に適するものであること。 3)よって、データベース化がしやすく、記号等によって検索がしやすいものであること。 4)コーディングが「発話文」単位でできること。(発話文の定義は後出) 5)対人機能に重要な役割を果たすと考えられる周辺言語情報は、ト書き的にして、なるべく多くをし記しておくこと。以下に、もう少し詳しく述べる。

一瞬眺めて見ましたが、特に研究目的ではないので従う必要性はなさそうです。 とほほ、と思いながら擬似会話データを作り続けるのでした。

今日の結果

今日のAKBの呟きは59件でした。 要約するとこんな感じでした。

tweet"22:10〜showroomします♪""日本ただいまです!大森美優(AKB48チーム4)""ご褒美でした〜""黄金の月見バーガー??食べた後に写真撮レバよかったー!と思ったのでスプライトと撮りました!""絶天狼抜刀牙しってる?兄弟喧嘩した時兄にそれで攻撃されてた事仕事前にふと思い出したんだ。""好きな人たちに会うとコミュニケーション取れない人間なんだろうなと想像はしてたけど本当なんだなと実感して自分に引きました?
Aku…""今回は、日本インドネシア国交樹立60周年の年にジャカルタに行くことができて本当に嬉しかったです。日本インドネシアが親しい関係にあったことで今の自分がいるんだと思いました。久しぶり同期に会えて、久しぶりに初期からのファンの方…""AKBカフェのメニューがせいちゃんフィーバーしてた?
"そして、さややはJKT48ステフィーはAKB48での短期交換留学が発表されました!それぞれの国を離れて活動するのは不安だけどいつでも待ってるからね?♡ステフィーにも日本を好きになってもらえるように何か力になれたらいいなぁ!…""音楽祭2日目はJKT48の皆さんとパフォーマンスさせていただきました?♩一生懸命覚えたインドネシア語で歌えて楽しかった〜!sukasekali~?
'楽しい': 4, '嬉しい': 3, 'すごい': 3, 'いい': 2, '寂しい': 2, '可愛い': 2, 'よい': 1, 'ない': 1, '素晴らしい': 1, '欲しい': 1, 'おもしろい': 1, '新しい': 1, '親しい': 1, 'さみしい': 1, 'かわいい': 1, '珍しい': 1
'日本': 9, 'ちゃん': 9, '日': 9, '今日': 8, 'さん': 7, 'ん': 6, 'ジャカルタ': 6, '公演': 6, '留学': 5, '久しぶり': 5,
'する': 34, 'てる': 10, '日本': 9, 'ちゃん': 9, '日': 9, '今日': 8, '頑張る': 8, 'さん': 7, 'ん': 6, 'ジャカルタ': 6, '公演': 6, '留学': 5, '久しぶり': 5, '思う': 5, 'くださる': 5, 'なる': 5, 

f:id:rimt:20180913235316p:plain

f:id:rimt:20180913235343p:plain