【スクレイピング】Pythonで画像収集をするやり方

こんにちは。toruです。

今回はpythonでスクレイピングを実装していきます。

おそらくこのサイトに行き着いた方はスクレピングについてご周知の方だと思うので新たにここでは説明しません。

もし、スクレイピングについて知りたい方は以下のサイトを参照してからお進みください。

スクレイピングとは？

データ収集を大幅に効率化する「スクレイピング」とは？手法やルール・注意点を解説！

それでは早速いきましょう！

スクレイピングで取得したデータを公開・複製および販売することは著作権法違反により罰せられる可能性があります。使用する際は解析・個人観賞用途のみの目的で使用してください。

また、スクレイピングは対象のWebサイトのサーバーに大きな負荷をかけます。今回紹介したスクリプトを複数台のPCで同時に使用することは禁じます。もしそれにより偽計業務妨害罪などで訴えられても当サイトおよび管理者は一切の責任を負いかねます。全て自己責任でお願いします。

Contents

【忙しい方向け】紹介するプログラム
【急いでない方向け】まずは必要なライブラリをインストール
実行結果
最後に

【忙しい方向け】紹介するプログラム

今回紹介するプログラムは以下の通り。お急ぎの方はコピペして使用してください。

# -*- coding: utf-8 -*-

# urlを読み込むためrequestsをインポート
import requests
# htmlを読み込むためBeautifulSoupをインポート
from bs4 import BeautifulSoup
from requests.compat import urljoin
import urllib3
from urllib3.exceptions import InsecureRequestWarning
import datetime
import time
import os
from time import sleep

urllib3.disable_warnings(InsecureRequestWarning)

def into_dir():
        dt_now = datetime.datetime.now()
        date = str(dt_now.year) + str(dt_now.month) + \
            str(dt_now.day) + str(dt_now.hour) + str(dt_now.minute)

        return dt_now, date

def scraping(url, output_dir):
    # 画像リストの配列
    images = []

    _, date = into_dir()
    #dt_now = datetime.datetime.now()
    #date = str(dt_now.year) + str(dt_now.month) + str(dt_now.day) + str(dt_now.hour) + str(dt_now.minute)

    cnt = 0
    prc = ['/', '-', '\\', '|']

    # bsでURL内を解析
    soup = BeautifulSoup(requests.get(url, verify=False).content,'lxml')

    # imgタグを取得しlinkに格納
    for link in soup.find_all("img"):
        # imgタグ内の.jpgであるsrcタグを取得
        if link.get("src") and link.get("src").endswith(".jpg"):
            # imagesリストに格納
            images.append(urljoin(url, link.get("src")))
        # imgタグ内の.jpegであるsrcタグを取得
        elif link.get("src") and link.get("src").endswith(".jpeg"):
            # imagesリストに格納
            images.append(urljoin(url, link.get("src")))
        # imgタグ内の.pngであるsrcタグを取得
        elif link.get("src") and link.get("src").endswith(".png"):
            # imagesリストに格納
            images.append(urljoin(url, link.get("src")))
        # imgタグ内の.gifであるsrcタグを取得
        elif link.get("src") and link.get("src").endswith(".gif"):
            # imagesリストに格納
            images.append(urljoin(url, link.get("src")))
        # imgタグ内の.mp4であるsrcタグを取得
        elif link.get("src") and link.get("src").endswith(".mp4"):
            # imagesリストに格納
            images.append(urljoin(url, link.get("src")))
        else :
            continue

    l = len(images)
    for i, image in enumerate(images):
        re = requests.get(image, verify=False)
        i += 1
        cnt += 1
        print("\rSaving Image...{} ({} / {})".format(prc[cnt % 4], \
                                            cnt, (int(l))), end='')
        with open(output_dir + f'{i}' + "{0}.".format(date) + image.split('.')[-1], 'wb') as f:
            f.write(re.content)
        sleep(1)

def main():
    _, date = into_dir()
    cnt = 1

    os.makedirs('./data/{}'.format(date), exist_ok=True)
    output_dir = './data/{}/'.format(date)
    URL = []

    f = open('scraping_url.txt', 'r')
    URL = f.readlines()

    # URL入力
    #URL = [""]

    for url in URL:
        # プロセス時間計測開始
        start_time = time.time()

        print("\n({0}/{1})Start".format(cnt, len(URL)))
        # スクレイピング
        scraping(url, output_dir)

        # 学習にかかった時間を計算
        finish_time = time.time()
        print("\nok!\nProcessing time => {0:.0f} min {1:.2f} sec".format((finish_time - start_time)/60, (finish_time - start_time)%60))

        cnt += 1

if __name__ == "__main__":
    main()

100

101

102

103

# -*- coding: utf-8 -*-

# urlを読み込むためrequestsをインポート

import requests

# htmlを読み込むためBeautifulSoupをインポート

from bs4 import BeautifulSoup

from requests.compat import urljoin

import urllib3

from urllib3.exceptions import InsecureRequestWarning

import datetime

import time

import os

from time import sleep

urllib3.disable_warnings(InsecureRequestWarning)

def into_dir():

dt_now = datetime.datetime.now()

date = str(dt_now.year) + str(dt_now.month) + \

str(dt_now.day) + str(dt_now.hour) + str(dt_now.minute)

return dt_now, date

def scraping(url, output_dir):

# 画像リストの配列

images = []

_, date = into_dir()

#dt_now = datetime.datetime.now()

#date = str(dt_now.year) + str(dt_now.month) + str(dt_now.day) + str(dt_now.hour) + str(dt_now.minute)

cnt = 0

prc = ['/', '-', '\\', '|']

# bsでURL内を解析

soup = BeautifulSoup(requests.get(url, verify=False).content,'lxml')

# imgタグを取得しlinkに格納

for link in soup.find_all("img"):

# imgタグ内の.jpgであるsrcタグを取得

if link.get("src") and link.get("src").endswith(".jpg"):

# imagesリストに格納