Wikisource:Google OCR

Google OCRツールは、Page名前空間に現在のページの画像からGoogleのOCRサービスであるCloud Vision APIによりテキストを抽出するためのツールバーボタンを設置します。

このツールは、標準のTesseract OCRシステムによってサポートされない言語において用いられます。Googleのサービスに我々が送ることのできるリクエスト数には限界があるため、Tesseract OCRが使用できる環境では使われるべきではありません。

(訳注:他のOCRシステムの日本語処理の性能は現時点では必ずしも実用的とは言えないため、日本語版でのGoogle OCRの使用は問題ないと思われます。縦書き文書にも対応していますが、多段組を自動認識しません。ページ数の多い場合や多段組の場合はインターネット・アーカイブの利用をご検討ください。また、国立国会図書館デジタルコレクションのうち、著作権保護期間の満了した資料については、次世代デジタルライブラリーより全文OCRテキストをダウンロードすることができます[1][2][3][4]。なお、2021年6月から、OCR機能改善への取り組みの一環として、ページ編集画面のツールバーに「文章の転記」というボタンが標準で表示されるようになっています。詳細設定画面で処理範囲を選択することにより、手動ではありますが多段組にも対応します。)

問題が生じた場合はPhabricatorにタグCommunity-Techを付けて報告してください(問題を報告する)。

サポートされる言語が限られている点に注意してください。

直接使用する

編集

ツールをCommons上にある画像に対して直接使用することができます。

その場合は、https://tools.wmflabs.org/ws-google-ocr/ にあるツールのウェブインタフェースに画像のURLをペースト(画像を右クリックした後で画像のURLをコピーするなど)します。この方法は、例えばCommonsのカテゴリneeding transcriptionにある画像を処理する場合などに有効です。

ウィキソースの場合、テキストが多く含まれるのが一般的であるため、通常の方法で校正する方がよいでしょう。

ユーザスクリプトまたはグローバルスクリプトを設定する

編集

ユーザは各自のcommon.jsに以下の行を追加することにより、Google OCRを使用することができます。

mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');

(訳注:日本語版では以下の行

importScript('User:CES1596/OCR1.js‎');

を追加することにより、簡易版を使用することもできます。)

上の行をMediaWiki:Common.jsに加えることにより、OCRツールをだれでも使えるようにすることもできます。その場合は以下のシステムメッセージを作成する必要があります。

ガジェットとして設定する

編集

Google OCRをウィキソースで使うためには、ガジェットとして設定するのがよいでしょう(インターフェース管理者のみこれを行うことができます)。

  1. MediaWiki:Gadget-GoogleOCR.jsを作成し、以下を追加する:
    mw.loader.load('//wikisource.org/w/index.php?title=MediaWiki:GoogleOCR.js&action=raw&ctype=text/javascript');
  2. 以下をMediaWiki:Gadgets-definitionに追加する:
    * GoogleOCR[ResourceLoader]|GoogleOCR.js
  3. 以下のシステムメッセージを作成する:
    • MediaWiki:google-ocr-button-label — ボタンのツールチップテキスト。例: "Google OCRによりテキストを抽出"
    • MediaWiki:google-ocr-request-in-progress — OCRリクエストの処理中に進捗を示すテキスト。例: "Google OCRによりテキストを抽出中"
    • MediaWiki:google-ocr-no-text — OCRは正常に終了したが、テキストが返されなかった場合のメッセージ。例: "Google OCRからテキストが抽出されませんでした"
    • MediaWiki:google-ocr-image-not-found — 画像はクラスprp-page-imageの要素にあります。画像が見つからない場合、このメッセージが吹き出しで表示されます。例: "このページには画像がありません"
  4. ガジェットを有効にし、動作をテストしてください。バグがある場合はPhabricatorにて報告してください。

ガジェットの設定についてはmw:Extension:Gadgetsをご覧ください。

このツールを使用しているサイト

編集

お使いの言語版でGoogle OCRスクリプトがガジェットまたはサイトスクリプトとして登録されている場合は、以下に追加してください。これにより、今後のサポートを円滑に行うことができます。

言語 コード リンク
Multilingual Wikisource oldwikisource:MediaWiki:GoogleOCR-local.js
Arabic ar ar:MediaWiki:Common.js ar:MediaWiki:Gadget-GoogleOCR.js
Assamese as as:MediaWiki:Common.js
Bulgarian bg bg:МедияУики:Gadget-GoogleOCR.js
Bengali bn bn:MediaWiki:Common.js
English en en:MediaWiki:Gadget-GoogleOCR.js
Spanish es es:MediaWiki:Gadget-GoogleOCR.js
Hindi hi hi:MediaWiki:Gadget-GoogleOCR.js
Kannada kn kn:MediaWiki:Gadget-GoogleOcr.js (not enabled)
Marathi mr mr:MediaWiki:Common.js
Malayalam ml ml:MediaWiki:Gadget-GoogleOCR.js
Neapolitan nap nap:MediaWiki:Gadget-GoogleOCR.js
Odia or or:MediaWiki:Gadget-GoogleOCR.js
Russian ru ru:MediaWiki:Gadget-GoogleOCR.js
Sanskrit sa sa:MediaWiki:Common.js
Tamil ta ta:MediaWiki:Gadget-GoogleOCR.js
Telugu te te:MediaWiki:Gadget-GoogleOCR.js
Gujarati gu gu:MediaWiki:Gadget-GoogleOCR.js

開発

編集

その他

編集