PDF分割を自動化！しおり機能×Pythonで非OCRのスムーズな文書管理術

ナマケモノ君とAIのPDF分割をめぐる対話
PDFを分割するための目印アイデア：OCRを使わない現実的な方法
ナマケモノ君の反応とPythonコードのリクエスト
1. Python作成の条件
Pythonコード

ナマケモノ君とAIのPDF分割をめぐる対話

PDFの扱いに悩むナマケモノ君と、AIによる解決策のやり取りを見ていきましょう。

複数ページあるPDFを、任意の場所で分割したいんだ。
コメント機能を使ってみたんだけど、元の文章に重なって見えなくなっちゃうのが困るな。
OCRは認識率の問題や解析に時間がかかるから、それ以外の方法で何か良いアイデアはないかな？

PDFの分割で元の文章が隠れたり、OCRの精度や時間が気になったりするのはよくあるお悩みですよね。
そこで、元のレイアウトを一切崩さず、後からプログラムで自動的に分割処理しやすい目印を付けるアイデアをいくつか提案します。

PDFを分割するための目印アイデア：OCRを使わない現実的な方法

最もおすすめの方法：しおり（ブックマーク）機能を使う

これが最も手軽で確実な方法です。多くのPDF閲覧・編集ソフトには「しおり（またはブックマーク）」を追加する機能が備わっています。

なぜおすすめなのか？

簡単: 特別な知識がなくても、Adobe Acrobatや多くの無料PDFソフトで簡単に追加できます。
見た目に影響なし: しおりはPDFの構造データとして保存されるため、ページの見た目は一切変わりません。
自動化しやすい: Pythonなどのプログラミング言語でしおりの情報を読み取るのが非常に簡単で、しおりがあるページを起点にPDFを分割するプログラムを容易に作成できます。

具体的なやり方

Adobe Acrobatや無料のPDF-XChange EditorなどのソフトでPDFを開きます。
分割したいページの先頭を表示します。
「しおり」パネルを開き、新しいしおりを追加します。
しおりの名前を付けます。このとき、後で自動処理しやすいように、「分割」のような共通のキーワードを入れておくのがコツです（例：「分割_資料A」「分割_資料B」）。

その他のアイデア

しおり機能が使えない特殊なケースのために、他のアイデアもご紹介します。

アイデア1：QRコードを埋め込む

ページの隅や余白など、文章に重ならない場所に、目印となる情報（例：「split-point-01」）をエンコードしたQRコードを画像として貼り付けます。

メリット: プログラムでの認識が非常に高速かつ正確です。
デメリット: QRコードを作成し、PDFの各ページに貼り付ける手間がかかります。

アイデア2：特定の記号や図形をスタンプする

PDF編集ソフトのスタンプ機能や描画機能を使って、ページの決まった位置（例：右上隅）に、目印となる★マークや特定の色の四角などを配置します。

メリット: スタンプ機能を使えば、比較的簡単に目印を追加できます。
デメリット: プログラムで図形を認識する処理は、しおりやQRコードの認識に比べて少し複雑になる可能性があります。

まとめと次のステップ

まずは、最も簡単で確実な**「しおり機能」**を試してみてはいかがでしょうか。

この方法であれば、元のPDFをきれいに保ったまま、分割の準備を効率的に進めることができます。

これらの目印を付けた後、もしご興味があれば、Pythonなどのプログラミング言語を使ってPDFを自動で分割する方法についてもご案内できますので、お気軽にお声がけください。

ナマケモノ君の反応とPythonコードのリクエスト

「おーなるほど！しおり機能か！
それでは早速。Pythonを作成してもらおう！」

Python作成の条件

複数ページで構成されているPDFを扱います。
しおりまたはブックマークで分割したいです。
ページごとにPDFのサイズや縦横が混ざっていても対応してください。
分割するPDFは、ファイルダイアログで指定します。
分割したPDFは、自動でダウンロードされます。

ナマケモノさんのご要望に応じて、PythonでPDFを自動分割するコードを作成します。
このコードは、指定されたPDFファイルのしおり情報を読み取り、しおりの場所でファイルを分割し、新しいPDFとして保存します。

Pythonコード

# 必要なライブラリをインストールします
# Install necessary libraries
!pip install PyMuPDF

import fitz  # PyMuPDF
from google.colab import files

# PDFファイルをアップロード
# Upload a PDF file
print("PDFファイルをアップロードしてください。")
uploaded = files.upload()

# アップロードしたPDFファイルの名前を取得
# Get the name of the uploaded PDF file
pdf_file = list(uploaded.keys())[0]
print(f"'{pdf_file}' がアップロードされました。")

# PDFを開く
# Open the PDF
doc = fitz.open(pdf_file)
print(f"PDF '{pdf_file}' を開きました。総ページ数: {len(doc)}ページ")

# 分割するためのページのリストを初期化
# Initialize a list to store page indices for splitting
split_pages = []

# PDFの目次 (しおり/ブックマーク) を取得
# Get the Table of Contents (bookmarks) from the PDF
# TOCは [[level, title, page_number (1-based)], ...] の形式
# TOC is in the format [[level, title, page_number (1-based)], ...]
toc = doc.get_toc()

# しおり情報から分割ページを特定
# Identify split pages from bookmark information
print("しおり情報を確認中...")
if toc:
    for entry in toc:
        # しおりのページ番号は1-basedなので、0-basedに変換
        # Bookmark page numbers are 1-based, convert to 0-based
        page_index = entry[2] - 1
        if 0 <= page_index < len(doc): # 有効なページインデックスか確認
            split_pages.append(page_index)
            print(f"しおり '{entry[1]}' (ページ {entry[2]}) を分割点として検出しました。")
else:
    print("PDFにしおり（ブックマーク）が見つかりませんでした。")

# 分割ページのリストを整理 (重複を排除しソート)
# Clean up the list of split pages (remove duplicates and sort)
split_pages = sorted(list(set(split_pages)))

# PDFの最初のページ (0) が分割点として含まれていない場合は追加
# If the first page (0) of the PDF is not included as a split point, add it
if 0 not in split_pages and len(doc) > 0:
    split_pages.insert(0, 0)
    print("PDFの最初のページを分割点として追加しました。")

if split_pages:
    print(f"最終的に分割点として使用されるページ (0-based): {split_pages}")
else:
    print("有効なしおりが見つからなかったため、PDF全体を一つのファイルとして処理します。")


start_page = 0
# 保存されたPDFファイル名を追跡するためのリスト
# List to keep track of saved PDF filenames for later download
saved_filenames = []

# 分割ページのリストを使ってPDFを分割
# Split the PDF using the list of split pages
print("PDFを分割中...")

# 分割点がない場合（しおりが全くない、または無効な場合）
if not split_pages or (len(split_pages) == 1 and split_pages[0] == 0 and len(doc) == 1):
    new_doc = fitz.open()
    for i in range(len(doc)):
        new_doc.insert_pdf(doc, from_page=i, to_page=i)
    # 元のファイル名から拡張子を除去し、それに_full_document.pdfを付与
    base_name = pdf_file.rsplit('.', 1)[0]
    new_pdf_filename = f'{base_name}_full_document.pdf'
    new_doc.save(new_pdf_filename)
    new_doc.close()
    saved_filenames.append(new_pdf_filename)
    print(f"分割点が見つからなかったため、PDF全体を'{new_pdf_filename}'として保存しました。")
else: # 分割点が見つかった場合
    # 最後のページのインデックスを分割点リストに追加して、最後のセグメントを確実に保存
    if split_pages[-1] != len(doc):
        split_pages.append(len(doc)) # PDFの終了ページを最後の分割点とする

    for j in range(len(split_pages) - 1):
        start_page = split_pages[j]
        end_page = split_pages[j+1]

        # 新しいPDFを作成
        # Create a new PDF document
        new_doc = fitz.open()

        # 分割するページを元のドキュメントから新しいPDFに追加
        # Add pages to the new PDF from the original document
        # from_pageは含む、to_pageは含まない範囲を指定するため、end_page-1までをコピー
        for i in range(start_page, end_page):
            new_doc.insert_pdf(doc, from_page=i, to_page=i)

        # 新しいPDFを保存
        # Save the new PDF
        # ファイル名に開始ページと終了ページを含める
        new_pdf_filename = f'split_from_page_{start_page + 1}_to_{end_page}.pdf'
        new_doc.save(new_pdf_filename)
        new_doc.close()
        saved_filenames.append(new_pdf_filename) # 保存したファイル名をリストに追加
        print(f"'{new_pdf_filename}' を保存しました。")

# 元のPDFドキュメントを閉じる
# Close the original PDF document
doc.close()

# 分割されたPDFファイルをダウンロード
# Download the split PDF files
print("\n生成されたPDFファイルをダウンロードします。")
if not saved_filenames:
    print("ダウンロードするファイルがありません。")
else:
    for filename in saved_filenames:
        print(f"- '{filename}' をダウンロード中...")
        files.download(filename)
    print("すべての分割PDFファイルのダウンロードが完了しました。")