scrapyを使いこなして、自動でテキストを集めよう2

scrapyを使えばjson形式で、データを保存できることがわかりましたので、次に進んでいきます。

リンクを追う

人がサイトからサイトへリンクをたどっていけるように、scrapyもリンクをたどっていろいろな情報にアクセスできるようです。

昨日に続いて、チュートリアルを見ていきます。

リンクをたどる

まずはaタグ内のリンクを知る必要がありますので、シェルを起動してa要素を取得します。

response.css('li.next a').extract_first()

実行結果。

'<a href="/page/2/">Next <span aria-hidden="true">→</span></a>'

aタグ内の要素が取得できました。しかし、本当に必要なのは、hrefの中身の”/page/2/”なのでもう一度シェルにコマンドを打ち込みます。

response.css('li.next a::attr(href)').extract_first()

引数に::attr(href)というのが追加されました。attrはJavaSceriptで言うと、HTML要素の属性を取得したり設定することができるメソッドだそうです。

実行結果。

'/page/2/'

hrefの中身が取得できました。

これを利用したサンプルがこちらです。

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('span small::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

hrefがNoneになるまでfor文を回すという、なんだか恐ろしげなコードが追加されました。実際のサイトでこれを実行すると情報量がやばそうですね。わからないですが。

ひとまずサンプルとして、これで実行してみますと、確かに情報がいっぱい保存されています。

scrapy crawl quotes -o quotes-humor.json

[
{"text": "\u201cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.\u201d", "author": "Albert Einstein", "tags": ["change", "deep-thoughts", "thinking", "world"]},
（以下は省略）

これで大体の基礎は終わりのようです。

知っておいた方が良さそうなこと

環境設定

環境設定は［scrapy.cfg］にあるそうです。と、言っても最初に書いてあるのはこれだけです。

[settings]
default = tutorial.settings

[deploy]
#url = http://localhost:6800/
project = tutorial

deployと書いてあるくらいですので、サーバーにアップした時に使うんだと思います。

Scrapyのコマンド

12個しかないらしいです。せっかくなので、ここで一通り調べておきます。

scrapy startproject <project_name> [project_dir]

新しい Scrapy プロジェクトを作成する。
scrapy genspider [-t template]

プロジェクトの中に新しいスパイダーを作成する。
scrapy crawl

スパイダーを使ってクローリングさせる
scrapy check [-l]

コントラクトチェックを実行。コントラクトとは訳すると「契約」という意味ですが、プログラムがしっかり動くかどうかを確認することをいうそうです。
scrapy list

使えるスパイダーを一覧表示します。
scrapy edit

指定したスパイダーを編集できるそうです。
scrapy fetch

1つ選ぶ取ることをプログラム用語ではfetchをいうらしいです。URLを指定していますが、その内容をログに出力するようです。
scrapy view

これを実行すると、スパイダー目線でブラウザが開きます。何個か試してみましたが、cssを読み込まないようですね。
scrapy shell [url]

shellは何回か実行しましたが、シェルでコードを試せます。
scrapy parse [options]

指定したURLを取得し、それをスパイダーで処理・解析をするそうです。
scrapy settings [options]

スパイダーの設定をみれるそうです。オプションのところにスパイダーの名前を入れると、そのスパイダーの設定がみれます。