備忘録メモ

編集
  • PDFに透明テキストが含まれていれば校正ページ作成時に利用できる。(OCRの精度が校正作業の省力につながる)
  • 近代デジタルライブラリ(国立国会図書館)からPDFデータをダウンロード可能。
  • なお、PDFではなく単画像JPG100%とするとPDF画像に比べ3倍程度の解像度の画像が得られる。画像URLはページ番号部を順次変えてダウンロード。(またはダウンローダ使用)
  • 画像ソフト(Irfanなど)のバッチ処理で切抜き、単ページ化。画像フォルダごとZIPで圧縮。
  • IA(インターネットアーカイブ)にアップロード。変換処理は順次処理されてるので少し時間がかかる。
  • IAのOCR変換は旧字にも対応して、精度は比較的高い。
  • IAからウィキメディアコモンに転送。

(旧手順)

  • ライブラリのデータは見開きページ(2ページ分)形式なので「かんたんpdfダイエット」(フリーソフト)を使って単ページ化。
  • 「かんたんpdfダイエット」にOCR機能を設定しておけば、PDFに透明テキスト追加が簡単にできる。