IT

【備忘録】Pythonを使ってPDFを読み込んでみた

まえおき

  • 業務で、PDFの文章を書き写してほしいということがあった。
  • しかし、一文一文書き写すのはすごいめんどくさい。
  • そこで便利なライブラリがそろってるPythonを使ってPDFを読み込むプログラムを作成した。

はじめにPythonプログラムを紹介

PDFを読み込むプログラムは以下になります。急いでる方はコピペしてください。

 

読み込む資料として、今回は総〇省の「令和4年度総務省政策評価実施計画」からPDFをダウンロードした。URLを貼っておくので、同じように読み込みしたい方はそちらからダウンロードしてください。

PDFを読み込むライブラリ「pdfminer」をインストール

それでは詳しく見ていきます。
余談だが、今回はpdfminerというライブラリを使用している。そのほかにもPythonでPDFを読み込むライブラリは4つぐらいあるらしい。

PyPDFは、様々なサイトで紹介されているため、あえてここでは紹介しない。

しかし、Apache TikaとTesseract OCRについては、今後記事にしようと考えているので乞うご期待。

話を戻して、pdfminerは以下のコマンドでインストール可能。

これだけ。

なお、インストールする際のコマンドやIDEについては、以下のサイトにて紹介しているため、是非そちらも見ていただきたい。

 

【初心者でも解る】VSCodeでライブラリ簡単インストール〜後編〜今回はVSCodeを使ってpythonの色々なライブラリを簡単にインストールしてく方法についてご紹介してきます。セットアップについては前回記事にしましたのでまだ見ていない方はそちらもご覧になってください。...

実際に読み込みを実行

実行した結果は以下の通り。

PDFの文章がtxtファイルに変換された。これで終わり。

(おまけ)コマンド上でも実行可能

また、今回はVisual Studio Code上でプログラムを作成し実行したが、windowsであればコマンドプロンプト、Macであればターミナル、Linuxであればシェルでも実行することは可能。
コマンド上で実行したい場合は、以下のコマンドを実行する(pdfminerはインストールしてください)。

windowsであれば、

 

Linux系であれば、

 

まとめ

今回はPythonでpdfminerというライブラリを使用して、PDFをスクレイピングする方法について記事を作成した。

今回は備忘録として書いているので説明がかなり雑になっているので、ご了承ください。。。

また、今回参考にした書籍を下に貼っておくので興味がある方はぜひ読んでみてください。

 

 

それではまた~

ABOUT ME
Toru
普段は会社員をしながらブログを書いてます。 文章力を上げるために始めたブログです。 主に家電/ガジェット系、プログラミングに関する記事を書きますが、たまに生活雑貨や投資信託関連の記事も書きます。初心者の方にもわかりやすく記事を書きます。 質問にもなるべく回答したいと思いますが、質問内容によっては答えかねる場合もあります。 お問い合わせ先:fearandloathinginlasvegas.toru@gmail.com

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です