近年、PDFファイルを解析してLLM(大規模言語モデル)に渡すための前処理が重要になっています。 pymupdf4llmは、PDFをページ・テキスト・図表単位で整理しやすくするライブラリです。 本記事では、pymupdf4llmを使った実例をJupyter Notebook形式で紹介し、最後に ...
PyMuPDF(fitz)を使うと、PDFファイルから画像を読み取り抽出することともできるみたいですね! キャッチアップした事の備忘録ですが、あなたのお役にたてれば幸いです。 以下に、PyMuPDFを使ってPDF内の画像を取得する方法を説明します。 まず、PyMuPDFを ...