こんばんは。安東大將軍倭國王と申します。邦文日本外史の入力についてですが、微力ながら私も協力させて頂きたく思い、Indexページにて巻一のテキストを途中まで入力させていただきました。Indexページでは、直接入力に比べて底本の画像と比較しながらの入力・修正作業が容易になります。よろしければご検討下さい。詳細については、ヘルプ:校正の基本ガイドをご覧頂ければ幸いです。--安東大將軍倭國王 (トーク) 2023年1月21日 (土) 13:33 (UTC)
- ありがとうございます。スキャンして入力する方法はわからなったのですが、こうした方が入力が速くなりそうなのでこちらの方法を試してみたいと思います。--Gogozil (トーク) 2023年1月21日 (土) 13:45 (UTC)
- @安東大將軍倭國王様、
- 早速試してみたところ、比較をしながら打てるので、速くできそうです。なお、安東大將軍倭國王様はこの画面でOCRはご使用されているでしょうか?Indexページの114ページをGoogle OCRを選択して、「文章を転記」ボタンを押すと、最初の数行が以下のように転記されました。
- 火起るを望む。田口成能曰く、「敵り
- をして陸に拒がしめん」と。之に従よ。
- ふなり。ふいに舟にせよ。
- 果して る。我が兵、郎くぐ。
- 火を行在につ。 我が兵壺~舟に上り、海陸交射る。
- 使い方はこれで正しそうでしょうか?これでもいくらか助けになると思うのですが、もし精度を上げる方法を既にご存知でしたらご教示いただきたく存じます。古い日本語の文章や漢籍はOCRでの転記は難しいようであれば、画像を見比べながら手作業で追加入力していきたいと思っております。--Gogozil (トーク) 2023年1月21日 (土) 14:17 (UTC)
- Google OCRの参照読み取りですが、読み取りの精度が低いため正直なところお勧めできません。次世代デジタルライブラリーから高精度の全文OCRテキストがダウンロードできるので、こちらの使用を推奨します。補足ですが、ダウンロードをせずとも画面右上の「テキスト表示」をクリックし、範囲選択で本文部分を選択したのち「ルビを消す」にチェックを入れ、「ルビのサイズ」で数値を50程度に調整すれば作業の際に邪魔になるルビを消すことができるので、自分はこの方法でOCRテキストをコピーして作業を行いました。なお、「コピー」というボタンもありますが、それを使うとタグ形式でコピーされてしまうので、テキストを選択してコピーするようにして下さい。--安東大將軍倭國王 (トーク) 2023年1月21日 (土) 14:48 (UTC)
ページ末尾での改行処理について
編集こんにちは。入力作業お疲れ様です。Page:Hōbun Nihon Gaishi.pdf/203のようにページ末尾で改行がされている場合、そのままトランスクルージョンすると改行が無視されてしまいます。これまで校正した際には修正させていただきましたが、これを防ぐためにはPage:Hōbun Nihon Gaishi.pdf/162のように末尾に{{nop}}を挿入するようにしてください。以上よろしくお願いいたします。--安東大將軍倭國王 (トーク) 2023年7月22日 (土) 20:01 (UTC)
- ご指摘ありがとうございます。なるほど、末尾で改行がある際はnopテンプレートを挿入すればいいのですね。--Gogozil (トーク) 2023年7月23日 (日) 05:58 (UTC)