PythonでScrapyを使ってYahoo Financeのデータをスクレイピングする方法

2023.01.18 2022.08.08

ヤフーファイナンスは、株価、金融ニュース、レポートなど、さまざまな分野の金融データを掲載する老舗のウェブサイトです。

過去の株価やマーケットサマリーを抽出するために、独自のYahoo Finance APIを持っている。

今回は、APIに頼らず、オリジナルのヤフーファイナンスウェブサイトをスクレイピングします。

ウェブスクレイピングは、Scrapyというオープンソースのウェブクローリングフレームワークで実現されている。

Bulk Scraping Requirement?
ウェブスクレイパーの要件
Scrapyのインストールとセットアップ
Scrapy を使って最初のスクレイパーを作成する
スクレイピングされたコンテンツのパース
関連データを抽出するためのタグを発見する
データ抽出のためのScrapyセレクタ
取得したデータをCSVファイルに書き出す
Scrapyプロジェクト全体を実行する
スクレイパーの完全なコード
まとめ

Bulk Scraping Requirement?

人気のあるウェブサイトのほとんどは、ファイアウォールを使って過剰なトラフィックを持つIPをブロックしています。

その場合、Zenscrapeを使用することができます。

Zenscrapeは、大規模なスクレイピングの問題を解決するウェブスクレイピングAPIです。

WebスクレイピングAPIに加え、レジデンシャルプロキシサービスも提供しており、プロキシ自体へのアクセスも可能で、ユースケースに応じた最大限の柔軟性を提供します。

ウェブスクレイパーの要件

具体的な話に入る前に、ある技術的な要件を満たしている必要があります。

Python – この特定のプロジェクトでは、Pythonを使用します。Python – このプロジェクトではPythonを使用します。膨大なライブラリと簡単なスクリプトは、Webスクレイピングのための最良の選択肢です。
Scrapy – PythonでサポートされているこのWeb-crawlingフレームワークは、ウェブサイトからデータを抽出するための最も有用な技術の1つです。
HTMLの基本 – スクレイピングは、HTMLタグと属性で遊ぶことを含む。しかし、読者がHTMLの基本を知らない場合、このウェブサイトが役に立ちます。
ウェブブラウザ – Google ChromeやMozilla Firefoxのような一般的に使用されているウェブブラウザには、基礎となるHTMLデータを検査する機能が備わっています。

Scrapyのインストールとセットアップ

Scrapyの簡単なインストール手順を説明します。

まず、他のPythonライブラリと同様に、Scrapyはpipを使用してインストールします。

pip install Scrapy

インストールが完了したら、Web Scraper 用のプロジェクトを作成します。

プロジェクトを格納するディレクトリを入力し、実行します。

scrapy startproject <PROJECT_NAME>

import scrapy
 
class yahooSpider(scrapy.Spider):

        ....

        ....

上記のターミナルのスニペットに見られるように、Scrapyはプロジェクトをサポートするいくつかのファイルを作成します。

ディレクトリに存在する各ファイルの細部の詳細については、ここでは触れません。

その代わりに、Scrapyを使って最初のスクレイパーを作成することを学ぶことを目的としています。

読者がインストールに関連する問題を抱えている場合に備えて、詳細なプロセスはここで説明されています。

この記事もチェック：Pythonのtempfileモジュールを使って一時ファイル、ディレクトリを作成、読み込み、書き込みをする方法

Scrapy を使って最初のスクレイパーを作成する

Scrapyプロジェクトの spiders ディレクトリ内に python ファイルを作成します。

注意点としては、Pythonクラスは Scrapy.Spider クラスを継承する必要があることです。

class yahooSpider(scrapy.Spider):
 
    # Name of the crawler

    name = "yahoo"
 
    # The URLs we will scrape one by one

    start_urls = ["https://in.finance.yahoo.com/quote/MSFT?p=MSFT",

    "https://in.finance.yahoo.com/quote/MSFT/key-statistics?p=MSFT",

    "https://in.finance.yahoo.com/quote/MSFT/holders?p=MSFT"]

以下、これから作成するクローラーの名前とURLです。

import scrapy

import csv
 
class yahooSpider(scrapy.Spider):
 
    # Name of the crawler

    name = "yahoo"
 
    # The URLs we will scrape one by one

    start_urls = ["https://in.finance.yahoo.com/quote/MSFT?p=MSFT",

    "https://in.finance.yahoo.com/quote/MSFT/key-statistics?p=MSFT",

    "https://in.finance.yahoo.com/quote/MSFT/holders?p=MSFT"]
 
    # Parsing function

    def parse(self, response):

                ....

                ....

検討中の銘柄は、マイクロソフト（MSFT）のものです。

私たちが設計しているスクレイパーは、以下の3つのウェブページから重要な情報を取得する予定です。

マイクロソフト株の概要
株価の統計
マイクロソフトの財務情報

start_urls` リストには、上記の各ウェブページの URL が含まれています。

この記事もチェック：Pythonのtarfileモジュールの使い方|tarファイルの作成、ファイルの追加、取得のやり方を解説

スクレイピングされたコンテンツのパース

指定されたURLは一つずつスクレイピングされ、HTML文書は parse() 関数に送られます。

# Parsing function

def parse(self, response):
 
    # Using xpath to extract all the table rows

    data = response.xpath('//div[@id="quote-summary"]/div/table/tbody/tr')

    # If data is not empty

    if data:
 
        # Extracting all the text within HTML tags

        values = data.css('*::text').getall()

parse()` 関数には、Yahoo Finance の Web ページからデータを抽出するためのロジックが含まれています。

データ抽出のためのScrapyセレクタ

今回使用するセレクタ関数は xpath() と css() の2つです。

XPATHは、独立して、XMLやHTMLのドキュメントからデータを選択するためのクエリ言語です。

XPATHはXML Path Languageの略です。

CSSは、独立して、HTML言語用のスタイル付け言語です。

これらのセレクタ関数の詳細については、それぞれの公式サイトを参照してください。

scrapy crawler <CRAWLER-NAME>

引数として受け取る response の値には、Webサイト内の全データが含まれる。

HTMLドキュメントにあるように、テーブルは id 属性が quote-summary である div タグ内に格納されている。

上記の情報を xpath 関数にキャストして、指定した div タグ内にある tr タグをすべて抽出します。

そして、タグの名前 (*) に関係なく、すべてのタグからテキストを取得して、 values というリストに格納します。

値のセットは以下のようなものです。

import scrapy

import csv
 
class yahooSpider(scrapy.Spider):
 
    # Name of the crawler

    name = "yahoo"
 
    # The URLs we will scrape one by one

    start_urls = ["https://in.finance.yahoo.com/quote/MSFT?p=MSFT",

    "https://in.finance.yahoo.com/quote/MSFT/key-statistics?p=MSFT",

    "https://in.finance.yahoo.com/quote/MSFT/holders?p=MSFT"]
 
    # Parsing function

    def parse(self, response):
 
        # Using xpath to extract all the table rows

        data = response.xpath('//div[@id="quote-summary"]/div/table/tbody/tr')

        # If data is not empty

        if data:
 
            # Extracting all the text within HTML tags

            values = data.css('*::text').getall()

            # CSV Filename

            filename = 'quote.csv'
 
            # If data to be written is not empty

            if len(values) != 0:
 
                # Open the CSV File

                with open(filename, 'a+', newline='') as file:

                    # Writing in the CSV file

                    f = csv.writer(file)

                    for i in range(0, len(values[:24]), 2):

                        f.writerow([values[i], values[i+1]])
 
        # Using xpath to extract all the table rows

        data = response.xpath('//section[@data-test="qsp-statistics"]//table/tbody/tr')

        if data:
 
            # Extracting all the table names

            values = data.css('span::text').getall()
 
            # Extracting all the table values 

            values1 = data.css('td::text').getall()
 
            # Cleaning the received vales

            values1 = [value for value in values1 if value != ' ' and (value[0] != '(' or value[-1] != ')')]

            # Opening and writing in a CSV file

            filename = 'stats.csv'

            if len(values) != 0:

                with open(filename, 'a+', newline='') as file:

                    f = csv.writer(file)

                    for i in range(9):

                        f.writerow([values[i], values1[i]])
 
        # Using xpath to extract all the table rows

        data = response.xpath('//div[@data-test="holder-summary"]//table')
 
        if data:

            # Extracting all the table names

            values = data.css('span::text').getall()
 
            # Extracting all the table values 

            values1 = data.css('td::text').getall()
 
            # Opening and writing in a CSV file

            filename = 'holders.csv'

            if len(values) != 0:

                with open(filename, 'a+', newline='') as file:

                    f = csv.writer(file)

                    for i in range(len(values)):

                        f.writerow([values[i], values1[i]])

注意しなければならないのは、タグの名前と属性は時間の経過とともに変化し、上記のコードは意味をなさなくなる可能性があるということです。

したがって、読者はそのような情報を抽出する方法を理解する必要があります。

また、HTML文書から無関係な情報を取得することもあります。

したがって、プログラマーは、そのような異常を修正するために適切なサニティチェックを実装する必要があります。

この記事の後半で提供される完全なコードには、HTMLの専門用語の海から重要な情報を得るための例があと2つ含まれています。

この記事もチェック：Pythonのpyzbarモジュールの使い方|バーコードの画像を読み取り情報を取得する方法

取得したデータをCSVファイルに書き出す

このプロジェクトの最後のタスクは、取得したデータをCSVファイルのようなある種の永続的なストレージに保存することです。

Python には csv ライブラリがあり、.csv ファイルへの書き込みを簡単に実装することができます。

Yahoo Finance Scraper Scrapy Install — Project Structure using Scrapy

上記のコードは quote.csv ファイルを開き、Python の csv ライブラリを用いてスクレイパーが取得した値を書き込んでいます。

注意: csv ライブラリは Python に組み込まれているライブラリではないので、インストールが必要です。

ユーザーは pip install csv を実行して、インストールすることができます。

この記事もチェック：PythonのGeopyライブラリを使って住所のジオコードを取得する方法

Scrapyプロジェクト全体を実行する

進捗状況をすべて保存した後、最初に作成したプロジェクトの最上位ディレクトリに移動して実行します。

Yahoo Finance Scraper Inspect Elements — Inspecting the Yahoo Finance Webpage

この例では、scrapy crawler yahooを実行すると、Pythonスクリプトが指定されたすべての情報をスクレイピングしてCSVファイルに格納します。

スクレイパーの完全なコード

Yahoo Finance Scraper HTML Edited — HTML document behind the Webpage

まとめ

Scrapy Frameworkは、他のスクレイピングライブラリと比較して直感的でないように見えるかもしれませんが、Scrapyの深い学習は、その利点を証明します。

この記事は、読者がScrapyを使用してWebスクレイピングを理解するのに役立ったことを願っています。

また、Beautiful Soupを使ったAmazonの商品詳細の抽出など、別のWeb Scrapingの記事もありますので、そちらもご覧になってみてください。

お読みいただきありがとうございました。

ご質問やご提案がありましたら、お気軽にコメントください。