毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018-08-01から1ヶ月間の記事一覧

2018/8/1【39日目】スクレイピングする前に著作権について考えてみた

scarapyの使い方がわかったところで、実際にWebサイトをスクレイピングしていきたと思います。 大量のテキストと言いますと、歌詞が思いつきますので、AKBの歌詞を取得していきたいと思います。 まずは歌詞を載せているサイトを見てみます。Googleで「歌詞 …

2018/7/31【38日目】scrapyを使いこなして、自動でテキストを集めよう2

scrapyを使えばjson形式で、データを保存できることがわかりましたので、次に進んでいきます。 リンクを追う 人がサイトからサイトへリンクをたどっていけるように、scrapyもリンクをたどっていろいろな情報にアクセスできるようです。 昨日に続いて、チュー…