【備忘録】Pythonを使ってPDFを読み込んでみた

まえおき

業務で、PDFの文章を書き写してほしいということがあった。
しかし、一文一文書き写すのはすごいめんどくさい。
そこで便利なライブラリがそろってるPythonを使ってPDFを読み込むプログラムを作成した。

Contents

はじめにPythonプログラムを紹介
PDFを読み込むライブラリ「pdfminer」をインストール
実際に読み込みを実行
（おまけ）コマンド上でも実行可能
まとめ

はじめにPythonプログラムを紹介

PDFを読み込むプログラムは以下になります。急いでる方はコピペしてください。

import os
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.pdfpage import PDFPage

def main():
    input_path = "000797112.pdf"
    name, _ = os.path.splitext(input_path)
    output_path =  name + '.txt'

    rsrcmgr = PDFResourceManager()
    codec = "utf-8"

    params = LAParams()

    with open(output_path, "ab") as output:
        device = TextConverter(rsrcmgr, output, codec=codec, laparams=params)
        with open(input_path, "rb") as input:
            interpreter = PDFPageInterpreter(rsrcmgr, device)
            for page in PDFPage.get_pages(input):
                interpreter.process_page(page)
            device.close()

if __name__ == "__main__":
    main()

import os

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager

from pdfminer.pdfpage import PDFPage

def main():

input_path = "000797112.pdf"

name, _ = os.path.splitext(input_path)

output_path = name + '.txt'

rsrcmgr = PDFResourceManager()

codec = "utf-8"

params = LAParams()

with open(output_path, "ab") as output:

device = TextConverter(rsrcmgr, output, codec=codec, laparams=params)

with open(input_path, "rb") as input:

interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.get_pages(input):

interpreter.process_page(page)

device.close()

if __name__ == "__main__":

main()

読み込む資料として、今回は総〇省の「令和４年度総務省政策評価実施計画」からPDFをダウンロードした。URLを貼っておくので、同じように読み込みしたい方はそちらからダウンロードしてください。

PDFを読み込むライブラリ「pdfminer」をインストール

それでは詳しく見ていきます。
余談だが、今回はpdfminerというライブラリを使用している。そのほかにもPythonでPDFを読み込むライブラリは4つぐらいあるらしい。

PyPDFは、様々なサイトで紹介されているため、あえてここでは紹介しない。

しかし、Apache TikaとTesseract OCRについては、今後記事にしようと考えているので乞うご期待。

話を戻して、pdfminerは以下のコマンドでインストール可能。

python -m pip install --user pdfminer.six

1	python -m pip install --user pdfminer.six

これだけ。

なお、インストールする際のコマンドやIDEについては、以下のサイトにて紹介しているため、是非そちらも見ていただきたい。

【初心者でも解る】VSCodeでライブラリ簡単インストール〜後編〜今回はVSCodeを使ってpythonの色々なライブラリを簡単にインストールしてく方法についてご紹介してきます。セットアップについては前回記事にしましたのでまだ見ていない方はそちらもご覧になってください。...

実際に読み込みを実行

実行した結果は以下の通り。

PDFの文章がtxtファイルに変換された。これで終わり。

（おまけ）コマンド上でも実行可能

また、今回はVisual Studio Code上でプログラムを作成し実行したが、windowsであればコマンドプロンプト、Macであればターミナル、Linuxであればシェルでも実行することは可能。
コマンド上で実行したい場合は、以下のコマンドを実行する（pdfminerはインストールしてください）。

windowsであれば、