IT

【スクレイピング】Pythonで画像収集をするやり方

こんにちは。toruです。

 

今回はpythonでスクレイピングを実装していきます。

おそらくこのサイトに行き着いた方はスクレピングについてご周知の方だと思うので新たにここでは説明しません。

もし、スクレイピングについて知りたい方は以下のサイトを参照してからお進みください。

 

 

それでは早速いきましょう!

 

スクレイピングで取得したデータを公開・複製および販売することは著作権法違反により罰せられる可能性があります。使用する際は解析・個人観賞用途のみの目的で使用してください。

また、スクレイピングは対象のWebサイトのサーバーに大きな負荷をかけます。今回紹介したスクリプトを複数台のPCで同時に使用することは禁じます。もしそれにより偽計業務妨害罪などで訴えられても当サイトおよび管理者は一切の責任を負いかねます。全て自己責任でお願いします。

 

 

【忙しい方向け】紹介するプログラム

今回紹介するプログラムは以下の通り。お急ぎの方はコピペして使用してください。

スクレイピングしたいサイトのURLは「scraping_url.txt」を作成し記述してください。

 

【急いでない方向け】まずは必要なライブラリをインストール

まずは、必要なライブラリをインストールしていきます。新たにインストールが必要なライブラリは以下の通りです。

  • requests
  • BeautifulSoup
  • urllib3

 

そして、これらのインストール方法は以下の通り。

 

もしかしたら、次のようなエラーがでるかもしれません。

 

もし、これが出たら次のライブラリをインストールしてください。

 

実行結果

では、実際に実行してみましょう。

まずは、scraping_url.txtというテキストファイルを作成し、画像収集したいサイトのURLを書き込んで保存してください。

 

そうしたら、先述しているプログラムを実行してください。

短時間に多くのリクエストをサーバに送ると遮断される可能性があります。

プログラム内の72行目「sleep(1)」は必ず入れるようにしてください。

 

すると、以下のように自動でフォルダが作成され、その中に画像が保存されています。

 

これで完了です。もちろんURLは複数個入力してもすべて収集されます。試してみてください。

 

最後に

今回はpythonでスクレイピングをする方法について書きました。

このサイトではこれ以外にも作業効率を向上させるようなソースコードや環境設定などを初心者でもわかりやすく説明していきます。

興味がある方は他の記事もご覧になってみてください。

 

それでは、ばい

 

HHKBのキー配列
【なぜ人気?】超高級キーボードHHKB HYBRID Type-Sを実際に買ってみた。今回はHHKB Hybrid Type-sの開封レビューと、1日使用してみた感想を紹介します。HHKBは超高級品となっているのに、現在でも品薄状態が続いています。なぜこの高級キーボードが売れるのでしょうか。私なりにまとめてみると、「静音性」、「無線接続/高速切り替え」、「静電容量無節点方式」が人気の理由だと思います。...
ABOUT ME
Toru
24歳。会社資料の文章力を鍛えるためにブログ開設。機械学習・ディープラーニング勉強中。プログラミング、デバイス、PC、ガジェット類について紹介していきます。

COMMENT

メールアドレスが公開されることはありません。