scarapyの使い方がわかったところで、実際にWebサイトをスクレイピングしていきたと思います。
大量のテキストと言いますと、歌詞が思いつきますので、AKBの歌詞を取得していきたいと思います。 まずは歌詞を載せているサイトを見てみます。Googleで「歌詞 サイト」で検索してみたらこんな感じでした。
- うたまっぷ(https://www.utamap.com/)
- 歌ネット(https://www.uta-net.com/)
- 歌詞ナビ(https://kashinavi.com/)
- 歌詞検索J-Lyric.net(http://j-lyric.net/)
とりあえず、一番上に出てきたうたまっぷでAKBの歌詞を検索してみます。AKBと検索すると500曲以上出てきますので、ここのサイトで良さそうです。適当な曲を選んで、[検証]からソースコードを見てみます。 コード上には
<!-- 歌詞 --> hogehoge <!-- 歌詞 end -->
と言うのがありまして、このhogehogeの部分が歌詞になっています。
しかし、最近の歌詞サイトはコピペができないんですね。
歌詞ですとJASRACが管理しているだけあって、著作権に関してうるさいんでしょうね。 そうなってきますと、このサイトをスクレイピングしていいのか少々不安になります。
さんざんTwitterからテキストを取得しておいて今更感がありますが、著作権についてちょっと調べたいと思います。
スクレイピングと著作権
スクレイピングと著作権については『IT法務や仮想通貨、ICO、AIの法律に詳しい弁護士|中野秀俊』と言うサイトに詳しく載っていましたので、引用します。
著作権法では、例外規定として、情報解析のための複製等を著作権者の同意なく行うことを認めています(著作権法47条の7)。 この例外規定では、以下の点に関して、法律上、許されています。 1. コンピュータによる情報解析を行うことを目的する場合で 2. 記録媒体への記録又は翻案 翻案とは、元のコンテンツに新たな創作的表現を加えることをいいます。 よって、スクレイピングの結果、データベースの作成に際して、情報解析を行う場合には、記録媒体への記録を行うことは、法律上、許されます。
なんと解析用にデータを集めることは全く問題ない行為だったのでした(ちょっと安心)!
とはいえ、例外がありますので詳しくは上記のサイトをご確認ください。
かんじんの四十七条の七はこちらです。
(情報解析のための複製等) 第四十七条の七 著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。
それなら、むしろ何が駄目なんだ。
データ解析のためならスクレイピングしていいとのことでしたが、それなら何が駄目なんでしょう。法律のことは弁護士に聞くのが一番なので、弁護士ドットコムを見てみます(課金してみました)。みんなの法律相談で「スクレイピング」と検索してみると、9件の相談がありました。
RSSにしろ、HTMLでの読み込み(スクレイピング)にしろ、他人のサイトの情報を読み込んで、自身のサイトで表示すれば、著作権侵害です。画像を差し替えたらどうなるかという以前の問題です。
RSSで取得した記事の画像変更について - 弁護士ドットコム
他人が公開している画像のURLを自分のサイトに埋めこんで公開することは、場合によって著作権侵害にあたります。
スクレイピングと、画像の直リンクについて - 弁護士ドットコム
Amazonのwebサイトをスクレイピング・クローリングすることに違法性はありますか? - 弁護士ドットコム
回避方法は手作業での著作権侵害を構成しないレベルまで表現の一般化などがあります
企業のWebサイト上で公開されているFAQページの内容の利用は著作権違反にあたるか? - 弁護士ドットコム
著作権法は表現を保護するものですから、情報だけを参照するなら問題ありません。
他社求人サイトの情報の取得・使用はどこまでが著作権、法的な違反となるのでしょうか。 - 弁護士ドットコム
スクレイピング → 公開という流れに関係ありそうなのはこの辺りですね。基本的にはそのまま載せるのは駄目そうですね。一般的な著作権とみなされない情報だったら法律的に問題はないかもしれない、というレベルの解釈をしていれば良さそうです。
しかし、その中で面白い回答が1つありました。
そんなリストがあるんですね。日本音楽著作権協会(JASRAC)のサイトを見てみます。
JASRACと利用許諾契約を締結している以下のサービスでは、一般ユーザーの皆さまが個別にJASRACへ利用許諾手続きを行なわなくともJASRAC管理楽曲を利用したUGC(動画・歌詞)をアップロードすることが可能です。
利用許諾契約を締結しているUGCサービスリストの公表について
へー、面白い制度ですね。ちなみにそのリストがこちら。
■ブログサイト等(50音順) JASRAC管理楽曲の歌詞掲載が可能なサービス
Hatenaブログはないですね笑。
ちなみに歌詞サイトを運営する際は、JASRACにストリーム形式で申し込んで、月間の情報料及び広告料等収入の3.5%を払えば良さそうです。収入からの3.5%なら思ったよりは安いですかね?
利用規約について
さっきスクレイピングで例外があると書きましたが、その例外というのが利用規約でスクレイピングを禁止している場合です。うたまっぷの場合探してみましたが、利用規約がないんですね。代わりに、
「うたまっぷ」で使用している歌詞はJASRAC(日本音楽著作権協会)、Nextoneから許諾 を受けており管理されております。当サイトの歌詞は、複製・転載・改変を禁止しております。以上をご承諾の上、当サイトをご利用ください。
と書いてあるだけなので、問題ないでしょう。
著作権と引用について
今回、いろいろなサイトから引用をしまくりましたが、これは大丈夫なんですかね? 一応、引用と認められる条件も調べました。引用に関しては著作権法の第三十二条にあるようです。
第三十二条 公表された著作物は、引用して利用することができる。この場合において、その引用は、公正な慣行に合致するものであり、かつ、報道、批評、研究その他の引用の目的上正当な範囲内で行なわれるものでなければならない。
それで、正当な目的での引用というのは
- 自分の文章が「主」で、引用部分が「従」という関係である
- どこからどこまでが引用か明確にする
- 出典の明示
を満たせば良いようです。 なので、おそらくこちらも問題ないかと思います。
今日は何もテキストマイニングしてないですね笑
著作権のこともわかりましたので、明日はしっかりとスクレイピングをして歌詞を取得したいと思います。
今日の結果
今日のAKBメンバーによる呟きは59件でした。 前田敦子が結婚して、twitter上ではスピード審査婚と話題になっていましたが、AKBメンバー内ではそれほど話題になりませんでした。画像内の「あっ」ていうのが前田敦子のことです。