備忘録メモ
編集- PDFに透明テキストが含まれていれば校正ページ作成時に利用できる。(OCRの精度が校正作業の省力につながる)
- 近代デジタルライブラリ(国立国会図書館)からPDFデータをダウンロード可能。
- なお、PDFではなく単画像JPG100%とするとPDF画像に比べ3倍程度の解像度の画像が得られる。画像URLはページ番号部を順次変えてダウンロード。(またはダウンローダ使用)
- 画像ソフト(Irfanなど)のバッチ処理で切抜き、単ページ化。画像フォルダごとZIPで圧縮。
- IA(インターネットアーカイブ)にアップロード。変換処理は順次処理されてるので少し時間がかかる。
- IAのOCR変換は旧字にも対応して、精度は比較的高い。
- IAからウィキメディアコモンに転送。
(旧手順)
- ライブラリのデータは見開きページ(2ページ分)形式なので「かんたんpdfダイエット」(フリーソフト)を使って単ページ化。
- 「かんたんpdfダイエット」にOCR機能を設定しておけば、PDFに透明テキスト追加が簡単にできる。
- 透明テキスト設定手順:マイクロソフト製OCRエンジン(無償版)は変換精度は高くない。