IT

【すぐできる】pythonでスクレイピングをやってみる

こんにちわ。toruです。

 

今回はpythonでスクレイピングを実装していきます。おそらくこのサイトに行き着いた方はスクレピングについてご周知の方だと思うので新たにここでは説明しません。もし、スクレイピングについて知りたい方は以下のサイトを参照してからお進みください。

 

それでは早速いきましょう!

スクレイピングで取得したデータを公開・複製および販売することは著作権法違反により罰せられる可能性があります。使用する際は解析・個人観賞用途のみの目的で使用してください。

また、スクレイピングは対象のWebサイトのサーバーに大きな負荷をかけます。今回紹介したスクリプトを複数台のPCで同時に使用することは禁じます。もしそれにより偽計業務妨害罪などで訴えられても当サイトおよび管理者は一切の責任を負いかねます。全て自己責任でお願いします。

 

 

【忙しい方向け】紹介するプログラム

それでは早速いきましょう。お急ぎの方はコピペして使用してください。

スクレイピングしたいサイトのURLは「scraping_url.txt」を作成し記述してください。

 

【急いでない方向け】まずは必要なライブラリをインストール

まずは必要なライブラリをインストールしていきます。インストールが必要なライブラリは以下の通り。

  • requests
  • BeautifulSoup
  • urllib3

そしてこれらのインストール方法は以下の通り。

もしかしたら次のようなエラーがでるかもしれません。

もしこれが出たら次のライブラリをインストールしてください。

 

注意点「sleep」

短時間に多くのリクエストをサーバに送ると遮断される可能性があります。

プログラム内の72行目「sleep(1)」は必ず入れるようにしてください。

最後に

今回はpythonでスクレイピングをする方法について書きました。

このサイトではこれ以外にも作業効率を向上させるようなソースコードや環境設定などを初心者でもわかりやすく説明していきますので興味がある方は他の記事もご覧になってみてください。

それでは、ばい

Pythonで処理時間をhh/mm/ssのように表示する方法

HHKBのキー配列
【価格が超高いのに超人気なキーボード】HHKB Hybrid Type-S開封レビュー今回はHHKB Hybrid Type-sの開封レビューと、1日使用してみた感想を紹介します。HHKBは超高級品となっているのに、現在でも品薄状態が続いています。なぜこの高級キーボードが売れるのでしょうか。私なりにまとめてみると、「静音性」、「無線接続/高速切り替え」、「静電容量無節点方式」が人気の理由だと思います。...
ABOUT ME
Toru
24歳。会社資料の文章力を鍛えるためにブログ開設。機械学習・ディープラーニング勉強中。プログラミング、デバイス、PC、ガジェット類について紹介していきます。

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です