IT

【備忘録】Pythonを使ってPDFを読み込んでみた

まえおき

  • 業務で、PDFの文章を書き写してほしいということがあった。
  • しかし、一文一文書き写すのはすごいめんどくさい。
  • そこで便利なライブラリがそろってるPythonを使ってPDFを読み込むプログラムを作成した。

はじめにPythonプログラムを紹介

PDFを読み込むプログラムは以下になります。急いでる方はコピペしてください。

 

読み込む資料として、今回は総〇省の「令和4年度総務省政策評価実施計画」からPDFをダウンロードした。URLを貼っておくので、同じように読み込みしたい方はそちらからダウンロードしてください。

PDFを読み込むライブラリ「pdfminer」をインストール

それでは詳しく見ていきます。
余談だが、今回はpdfminerというライブラリを使用している。そのほかにもPythonでPDFを読み込むライブラリは4つぐらいあるらしい。

PyPDFは、様々なサイトで紹介されているため、あえてここでは紹介しない。

しかし、Apache TikaとTesseract OCRについては、今後記事にしようと考えているので乞うご期待。

話を戻して、pdfminerは以下のコマンドでインストール可能。

これだけ。

なお、インストールする際のコマンドやIDEについては、以下のサイトにて紹介しているため、是非そちらも見ていただきたい。

 

【初心者でも解る】VSCodeでライブラリ簡単インストール〜後編〜今回はVSCodeを使ってpythonの色々なライブラリを簡単にインストールしてく方法についてご紹介してきます。セットアップについては前回記事にしましたのでまだ見ていない方はそちらもご覧になってください。...

実際に読み込みを実行

実行した結果は以下の通り。

PDFの文章がtxtファイルに変換された。これで終わり。

(おまけ)コマンド上でも実行可能

また、今回はVisual Studio Code上でプログラムを作成し実行したが、windowsであればコマンドプロンプト、Macであればターミナル、Linuxであればシェルでも実行することは可能。
コマンド上で実行したい場合は、以下のコマンドを実行する(pdfminerはインストールしてください)。

windowsであれば、

 

Linux系であれば、

 

まとめ

今回はPythonでpdfminerというライブラリを使用して、PDFをスクレイピングする方法について記事を作成した。

今回は備忘録として書いているので説明がかなり雑になっているので、ご了承ください。。。

また、今回参考にした書籍を下に貼っておくので興味がある方はぜひ読んでみてください。

 

 

それではまた~

ABOUT ME
Toru
24歳。会社資料の文章力を鍛えるためにブログ開設。機械学習・ディープラーニング勉強中。プログラミング、デバイス、PC、ガジェット類について紹介していきます。

COMMENT

メールアドレスが公開されることはありません。