ヘルプ:インターネット・アーカイブ

← ヘルプ:目次

インターネット・アーカイブ

姉妹プロジェクト：データ項目

ショートカット:
H:IA

インターネット・アーカイブからファイルをダウンロード、あるいはファイルをアップロードする場合のガイドライン

「Wikisource:パブリックドメインの底本を提供しているサイト一覧」も参照

The Internet Archive

インターネット・アーカイブは、約300万のデジタル書籍だけでなく、音楽、オーディオ、ビデオおよびその他のファイルを保有する非営利のデジタルライブラリです。これは、ウィキソースで使用するDjVuファイルの主な入手源の一つです。インターネット・アーカイブは、自身のスキャンに基づくファイルだけでなく利用者からアップロードされたスキャンから種々の派生ファイル（DjVuファイルを含む）を生成します。これは、ユーザが作成したスキャンをウィキソースと互換性のあるDjVuファイルに変換する有用な方法です。

このヘルプページでは、DjVu形式のファイルに焦点を当てています。というのも、ウィキソース上で最も使用されているファイルの種類がDjVu形式だからです。しかし、この手順はインターネット・アーカイブから利用可能な他のファイル・タイプでも使用することができます。

ファイルの入手

検索

1. インターネット・アーカイブに移動します

2. 求める書籍（あるいは他の文書）を検索します。基本的な検索では、テキストフィールドとドロップダウンリストが使えます。テキストフィールドに書籍のタイトルを入力して、ドロップダウンを「テキスト」に設定します。

3. "Go"をクリックします。

4. 的確なファイルがアーカイブで発見された場合、検索結果に見つけられるはずです。適切なファイルが複数ある場合、最高と思えるものを選択してください。これは主観的なものですが、明瞭なスキャンは、校正時に最も効果が出るので、利用可能な最高品質を目指してください（また、スキャンの中には汚れや書込みがあり、校正をより難しくする場合もあります）。スキャンの違いは、エディションの違いに由来するものかもしれません。もしそうなら、利用可能な最も古い版が一般的な選択肢ですが、どれを選ぶかはあなた次第です。

5. 失敗した場合、リンクに従ったり、題名・作者で検索したり、Advanced Search（高度な検索）を利用したりしてみてください。

もしあなたが、意図した書籍を見つけられなくても、作業するのに興味深いものを見つけた場合には、ライセンス条項上Wikisourceで利用することが本当に適当であるかどうか（例えばパブリックドメイン作品か、またはコピーレフトの互換ライセンスの作品か）を確認することが強く推奨されます。インターネットアーカイブは、未だ著作権下、あるいは制限的なライセンス条項である作品が寄贈されるの受け入れていますが、ウィキソースは、それらがarchive.orgで入手できるという理由だけで、自動的に受け入れるわけではありません。―それらはライセンス要件を満たしている必要もあるのです。

スキャンされた日本語の書籍もありますが、タイトル、著者名を含め日本語で登録されていない（ローマ字）ため、検索性はよくありません。Advanced SearchからMediatypeをtextsに、Custom Fieldをlanguageに選択、japaneseと入力してSearchをクリックするか、あるいはコレクションを選択後、右サイド一番下の言語タグからjapaneseを選択すれば、一覧が表示されます。（例：トロント大学:約2400冊、スミソニアン図書館:39冊）

なお、各書籍のページにある派生ファイル欄(DOWNLOAD OPTIONS)のFULL TEXTファイルからOCRの認識状況が確認できますので、これを利用した外部検索サイトでの日本語検索も可能です。

DjVu ファイル

DjVuファイルは以下の手順に従うか、手動でURLをDjVu URLのデフォルト形式に変えることで、ダウンロード（およびWikimedia Commonsにアップロード）できます。

1. details page（詳細ページ）の右下に、"DOWNLOAD OPTIONS"というタイトルのボックスがあります。

2. ファイルリストを入手するために、リンクをクリックしてください。

3. こうすることで、ファイルリストが開きます。

4. 拡張子.djvuをファイルに追加してください。

DjVuの代わりに他のファイルをダウンロードすることもできます。必要ならば、リスト内から最も適当なファイルを選び、作業してください。

PDF文書。拡張子.pdf。
音声にはOgg Vorbis（拡張子.ogg）ファイルが利用できます。
動画にはOggTheora（拡張子.ogv）ファイルが利用できます。
元スキャンもリストから選択できます。この例の場合、sikhafghansinco00shahrich_jp2.zipがJPEG 2000による個々のページのアーカイブです。図画、写真など様々な本の要素が高品質で含まれているので有用です。

5. これがWikimedia Commonsにアップロードする必要のあるファイルです。下記のアップロードを参照してください。

もしくは、
DjVuファイルは、本用のURLからDjVuファイル用URLに変えることで入手してください。

https://archive.org/details/$File$ → https://archive.org/stream/$File$/$File$.djvu

アップロード

ウィキメディア・コモンズにファイルをアップロードするには、主な方法が3つあります。

１: IAアップロードツール

ショートカット:
H:IA-Upload

IAアップロードツールは、現状、archive.orgからウィキメディア・コモンズにファイルをアップロードする際に最も簡単に利用できる方法です。それらのオープンソースコードを確認したり、貢献したりすることができます。

IAアップロードに移動します。毎回実行時にウィキメディアコモンズでアカウントから"OAuth" （制限付きアクセス権のパーミッション）が要求されます。（ダイアログが表示されます）
最初のフィールドにarchive.org識別子アクセス(https://archive.org/details/$IDなどのURLの$ID部分) を入力します。
2番目のフィールドにコモンズにアップロードするための目的のファイル名（File:の接頭辞と末尾.djvuは不要）を挿入し、次に進みます。
自動生成されるメタデータを確認し、必要に応じてそれを変更します。これはコモンズの{{book}}テンプレートに基づいて行われます。
先に進めると、数秒後に、適切にファイルがアップロードされ、コモンズの投稿記録にリストされます。（ダイアログは次にアップロードするファイルの設問に変わります）

２: 自動転送

インターネット・アーカイブからウィキメディア・コモンズにDjVuファイルを自動的に転送するために、URL2Commonsツールを使用します。

ツール使用の際の情報についてはHelp:URL2Commonsを参照してください。
インターネット・アーカイブにあるファイル一覧の適切なファイル上で右クリックし、"Copy Shortcut"（ショートカットのコピー）かそれに類似するものを選択します。
これをURL2Commonsツールの上側のパネルに貼り付けます。
URL2Commonsのヘルプ文書に記載されているように進めてください。

３: マニュアルでのダウンロードおよびアップロード

自分のコンピュータにファイルをダウンロードし、それから手動でウィキメディア・コモンズにアップロードします。

ダウンロードするには、インターネット・アーカイブファイルの一覧で、適切なファイルを右クリックして"名前を付けて対象を保存"（または同等のもの）を選択します。
これは、ファイルのサイズによっては時間がかかるかもしれません。

ダウンロードマネージャソフトを使う場合は、そのソフトウェアの説明に従ってください。
ダウンロードした後は、ウィキメディアコモンズのアップロードウィザード（アップロードプロセスをガイドしている）、あるいはアップロードページ（より速く行えますが、コモンズの方針や方法といった多くの知識を必要とします）に移動します。

その他

ウィキメディア・コモンズにファイルをアップロードする方法は、扱いにくいアップローダであるCommonistなど他にもあります。これらは、まだコモンズにアップロードする前に、自分のコンピュータにファイルをダウンロードする必要があります。

ファイルの追加

ファイルは、どの登録済みユーザもインターネット・アーカイブに追加することができます。ウィキソースユーザーが容易に利用と参照をするために下記の情報が提示されています。しかし、ウィキソースは、インターネット・アーカイブと提携しておらず、これらの段階のいずれかまたは全ては、任意の時点でアーカイブにより変更される場合があります。これをしようとする全ての人がインターネット・アーカイブ自身の説明書を参照し、ここに記載されている手順上記のものに従うことを強くお勧めします。

これらの説明書は:

Internet Archive FAQ — Uploading Content

次のインターネットアーカイブのブログの記事は、同様に有用であるかもしれません。

DjVuファイルの生成方法

（注意：2019年3月現在、仕様の改訂によりDjVuファイルは生成されなくなっています。代わりにPDF WITH TEXTをダウンロードし、Wikimedia CommonsにPDFファイルとして直接アップロードすることにより、OCRテキストを利用することができます。）

ログインの必要があります。（OpenIDは使用しないでください。機能しません^[1]）

アップロード

右上の角にある"Upload"をクリックしてください。flash upload（"Share"ボタンの標準機能）はFirefox（代わりにOperaかInternet Explorerを利用してください。^[2]）やLinuxでは機能しません。標準のJavaScript non-flash方式を利用できます（ただし、Chromium上では制限がありませんが、Firefoxでは2GBまでです）。FTPアップロードは、遅く不安定なので非推奨です。しかし、たくさんファイルをアップロードする必要がある場合（この場合には当てはまらないはずです）は、簡単に学べる唯一の可能性です。

OCRのワナ

アップロードが終了すると、インターネット・アーカイブが派生データを生成し始めます。アップロードされたPDFファイルのテキストに基づいてOCRを実行してXML文章を生成し、それを埋め込みテキスト付きDjVuファイルに変換し、テキストだけのダンプファイルを生成します。^[3]

必ず、メタデータ上の言語設定を、派生データの生成が始まる前に変更してください。生成が可能な場合はアップロード後自動的に実行されます。設定をしなかった場合は、OCR言語が英語に設定され、正常に認識できません。複数言語を設定することはできませんが、複数回アップロードして、それぞれの言語でOCR化することができます。^[4] 処理時間の長さはファイルのサイズと複雑さ、またインターネット・アーカイブ上の変換テストを待つファイルに依存します。^[5]待ち行列内の進行状況や、アップロードした作業に関する詳細情報（ログインが必要）を確かめることもできます。

インターネット・アーカイブは、高性能でプロプライエタリの商用ソフトABBYYを利用しています。^[6]ABBYYは、多種の言語・フォントに対応しており、きわめて良質の画像とOCRを高圧縮で出力します。^[7]そのため、最終DjVuファイルにおいて高い品質が維持されます。^[8]しかし、場合によっては過圧縮で低品質のDjVuファイルが生成されます。この場合は、PDFでダウンロードして手動で変換してください。解像度は普通、"推測"によって自動的に設定されますが、解像度を減少させることができます。ファイルを小さくしたり、処理時間を短縮したり、（場合によっては）エラーを減らしたりするためには、fixed-ppiフィールドを300 (dpi)以下に設定してください。

画像フォーマット

tarかzipアーカイブに適切に設定すれば、tiff, jpg, jp2形式の画像（他形式は非対応です）も生成されます。^[9]一般的に、非圧縮のスキャン画像かJPEGをアップロードするのがより望ましいです。派生データ生成プロセスで圧縮されるjp2ファイルは、苦労しないとエミュレートできません。

トラブルシューティング

派生データ生成プロセスで深刻な問題があり、管理者のヘルプ（タスクリストに赤字で表示されているタスク）が必要な場合は、info@archive.orgに連絡してください。ただし、一般的なヘルプの要請はフォーラムで行い、些末なことで管理者を手間取らせないでください！

手順

ファイルの準備

ページスキャンのコレクションをアップロードする場合：

ページスキャンは、それぞれ例えばJPEG形式といった１つの画像形式にする必要があります。
ページスキャンは、ファイル名を正しいアルファベット順に付ける必要があります。"MyScan001.jpg", "MyScan002.jpg"などのような命名形式とするのがよいかもしれません。数字の前に0とすることを覚えておいてください。そうでないとページ番号10は1,2の間となります。
使用フォルダ内に、ページスキャンファイル以外がないことを確認してください。
スキャンファイルが入ったフォルダのzipファイルを作成します。ファイル名は、"Myscan_images.zip"の形式である必要があります。"Myscan"は自由に変更してもかまいませんが、"_images"のサフィックスは重要です; これが省略された場合、後にファイルの派生データを生成するときにうまくいかない場合があります。

PDFファイルなどのファイルは、そのままアップロードすることができます。

アップロード

註：以下の方法は従来のアップロードの方法であり、2013年よりupload and create item wizard（アイテムのアップロードと生成ウィザード）が利用できます。よりシンプルな新アップローダーを利用すれば、以下のほとんどは不必要で見る必要はありません。ブログ記事How to upload a scanned book to the Internet Archive（スキャンした本をネット上にアップロードする方法）には、スクリーンショットが多数あります。拡張子とメタデータに関するアドバイスは、単なる著者の個人的意見なので、すべて無視してください。

インターネット・アーカイブにログインします。
画面右上にある"Upload"ボタンをクリックします。
アップロードするファイルを選択します。
要求された情報を入力し、適切なライセンス（ウィキソース上のライセンスと同様のもの）を選択します。
- Title (必須)
- Description (必須)
- Keywords (必須)
- Author
- Creative Commons Licence または Public Domainマーク
アップロードが完了するまで待ちます。
"Share my File(s)" ボタンをクリックします。
"Please wait while your page is created..."（ページが作成されるまでお待ちください）のメッセージが表示され、"Your Page is Ready!"の下にページヘのリンクが表示されます。
リンクをクリックすると"Your item is not yet public"のメッセージが表示されます。
本のデータの種類を選びます。オプションには"movie, audio, text, etree"や"community video, community audio, community text"があります。"text"や"community text"など、適切な種類を選択し、右部の"Submit"をクリックしてください。
- この段階で、待機して再度試行するようメッセージが出るかもしれません。メッセージは、"Your item is in the process of being derived, and you may not replace the metadata until the derive has finished (because any changes queued now would roll back those being made by the derive). Please try this page again after your item has finished deriving. [Item History]"です。この場合は、指示に従って再度試行してください。
Metadata Editorで詳細情報を埋めます（上記の段階の情報も入力します）。
Submitボタンをクリックします。これでログにファイルが入力されます。これは完了するまで少し時間がかかります。

派生データ

派生データは数日で作成できます。ファイル名または'Contributions'ページから確認できます。アップロードしたファイルから、自動的にさまざまな形式のファイルが生成されます。もし生成されていない場合は、左サイドバーの"View the book"（本を参照）に利用可能な形式（DjVu、EPUB、Kindle、Daisyなど）が表示されません。派生データの生成に失敗する理由はいくつもありますが、多くの場合はインターネット・アーカイブが原因でアップロードしたファイルとは無関係です。

まず、ファイルページから派生データの生成を有効にします。

"Edit item"（アイテムの編集）をクリックします
"change the information"（情報の変更）と"change the files"（ファイルの変更）が表示されるので、"change the information"をクリックします。
"Item Manager"（アイテムマネージャー）をクリックします
"Derive"（派生）をクリックします

これに失敗した場合は、

'Contributions'ページに移動します。
'See your contribution tasks that are not yet completed'（あなたが貢献した作業のうち完了していないもの）をクリックします。
リストが表示されます（この画像を参照）。
派生データの生成プロセスが稼働中であれば、待機してください。
プロセスが停止して、赤マークと'waiting for Admin'が表示された場合は、info@archive.orgにメールして、問題を報告し、生成プロセスの再開を要請してください。必ずアップロードページのリンクも記入してください。

アップロードの要請

外部Webサイトからインターネット・アーカイブ上へ、パブリック・ドメインの本のスキャンを大量にアップロードすることを要請する場合は、以下の準備作業を行ってください。

1) ダウンロードに必要な、本のURLリスト
2) CSV表に題名、作者、日付、説明、協力者（デジタル化した団体）などを付加したもの

英国領インドの英語本18冊作品集（ハイデルベルク大学Savifa Virtual Library South Asiaより）Solomon7968 (talk) 09:29, 4 February 2014 (UTC)
- アップロードできますが、ここの作品の大半がメタデータです。1) ダウンロードに必要な、本のURLリストと、2) CSV表に題名、作者、日付、説明、協力者（デジタル化した団体）などを付加したものとを用意してください。フィールドに入力する方法が分からない場合、修正のお手伝いはできますが、データ入力を代行する暇は残念ながらありません。--Nemo 09:46, 4 February 2014 (UTC)
- @Solomon7968：このセットは少量なので、私は作業できます。メタデータの並べ替えとアップロードができますが、来週になってしまいます。この条件でよろしいでしょうか？お望みであれば、csvも作成します（言い換えると、新しい、または新たなリクエストがあれば、新しいCSVファイルを作成するのをお助けします）。Lugusto 19:03, 7 February 2014 (UTC)
  - オファーありがとうございます！作品集の多くが、希少で他では入手できません。連絡先に載っていたNicole Merkelに1カ月ぐらい前にメールを送ったのですが、これまでのところ返事がありませんでした。Solomon7968 (talk) 03:31, 8 February 2014 (UTC)
    - SavifaDokがスキャンしたTransactions of the Agricultural and Horticultural Society of India v. II（インドの農業・園芸社会における取引第2巻）は非常に状態が悪いです。幸いにも、品質がよりよいスキャンデータがGBSにあるので、これを選び、私のコンピューターのABBYY 11でOCR+DjVu処理を行い、en:File:Transactions of the Agricultural and Horticultural Society of India - Vol 2.djvuというファイル名でCommonsにアップロードしました。しかし、Transactions of the Agricultural and Horticultural Society of Indiaは厳密には本ではなく、ジャーナルです。GBSにはこの作品の他の号もあります。SavifaDokの残り17作品も、明日、確認・作業します。Lugusto 19:46, 10 February 2014 (UTC)
      - @Solomon7968：遅れてしまい、申し訳ありません。明らかに、SavifaDokのスキャンデータは全て、非常に状態が悪いです。こちらも、品質がよりよいスキャンデータがGBSにあるので（全く同じページに対して2バージョンも号があるのですが…）、今回はA rapid sketch of the life of Raja Radhakanta Deva Bahadur with some notices of his ancestors, and testimonials of his character and learning（Raja Radhakanta Deva Bahadurの人生の粗描と、彼の先祖について気付いたことと、彼の性格と学習に関する証言）をen:File:A rapid sketch of the life of Raja Radhakanta Deva Bahadur.djvuにアップロードしました。できるだけ早く残りの16冊からより多くの書籍の処理を進めるつもりです。Lugusto 02:47, 15 February 2014 (UTC)

Google Books

Google Booksで入手したPDFファイルには、Wikisourceでの校正を容易にするためにインターネット・アーカイブに追加する前に削除しなければならない、警告文が含まれています。通常はuser/bot "tpb"（インターネット・アーカイブとは関係ありません）を利用します。関心のある本をtpbに登録するのがいいでしょう。ここにGoogle BooksのURLを蓄積し、一定の時点でtpbがフェッチします。

YannによるこのScriptorium thread（筆写室のスレッド）もご参照ください。Solomon7968 (talk) 10:37, 4 February 2014 (UTC)

tpbが開始した作品は数年前に終了したようですが、確信がありません。その間、GBSのオリジナル作品集はかなり充実しました。たぶん、GBSでの調査を指揮し、警告ページを除去し、インターネット・アーカイブにアップロードするツールが代わりに必要なのでしょうか？Lugusto 19:03, 7 February 2014 (UTC)
- ここの編集者の多くは、警告や透かしを除去し、Commons上にあるインターネット・アーカイブ由来の既存ファイルを、警告や透かしのないものと交換します。大きなファイルだと面倒です。インターネット・アーカイブへの自動アップロードシステムが役立つでしょう。Solomon7968 (talk) 03:31, 8 February 2014 (UTC)

Wikisourcerorsでもある管理者

管理者には、保留中の作業を再開したり中止したりするためのチェックボックスがあります。

インターネット・アーカイブのボランティアの一部は、特定の集合物に対して管理者の地位が与えられ、その中のすべてを編集することができます。いかなるボランティアも、"Community texts"の集合物に対する管理者の地位が与えられることを知られることはありませんが、それでも最も簡単な場面において支援することができます。(namely a derive.php red row waiting for admin or moving items into collections)

以下のユーザーは、スタッフの妨害をするつもりがなければ、リクエストできます。

Nemo
Alex brollo（opallibriantichi collectionの管理者）
Hydriz

脚注

↑ フォーラムを参照： Authentication error; not a valid OpenID（認証エラー；有効でないOpenID）、Login problems when I click "Share" （"Share"をクリックするとログインに問題が生じる）
↑ forumを参照
↑ もとのPDFファイルにテキストレイヤーが存在しない場合、派生データ生成プロセスは自動的に、上記と同じOCRによる、テキスト付き2次PDFファイルを生成します。
註：PDFをGoogleBooksから入手し、かつ第1ページに免責事項が記載されている場合、派生データ生成プロセスは、免責事項ページに隠れたテキストレイヤーを検知し、自動生成を全くせずにスキップした場合は残りのPDFページにも同様に隠れたテキストレイヤーが埋め込まれていると仮定します。免責事項ページは保持しながらも、隠れたテキストを全て除去するのが最善の方法です。この理由は、DjVuファイルの同時生成に関連します。このページを空白ページに変えるのも問題ありませんし、最悪の場合はもちろん、免責事項ページを削除してもかまいません。
↑ forumを参照
↑ 例：Vocabolario degli accademici della Crusca（1691年）は5.1日かかりました。
↑ 2013年以降Version 9.0を利用
↑ 例では、djvudigitalによるアウトプットと比較して、1/6に圧縮されています。
↑ 例：Gallicaの1691年版は205MBのPDFファイルです。これをpdf2djvu.shスクリプトで変換すると382.4MBになりますが、ほとんど読めません。djvudigitalを利用すると316.7 MBになり、少し読みやすくなります。インターネット・アーカイブを使うと、51.3MBになり、より品質のよいファイルになります。
↑ FAQ; documentation of the format to use. 註：拡張子は全て小文字にしてください、tifの"f"は1つにしてください、画像のppiの値をメタデータに入力してください。画像アーカイブが認識されない場合は、メタデータを編集してフォーマットを"Single Page Processed TIFF ZIP"（TARファイルの場合も）に設定するなどすれば改善されるかもしれません。おそらく、まずはthe _images.zipアーカイブフォーマット

[1] フォーラムを参照： Authentication error; not a valid OpenID（認証エラー；有効でないOpenID）、Login problems when I click "Share" （"Share"をクリックするとログインに問題が生じる）

[2] rumを参照

[textPDF-3] もとのPDFファイルにテキストレイヤーが存在しない場合、派生データ生成プロセスは自動的に、上記と同じOCRによる、テキスト付き2次PDFファイルを生成します。
註：PDFをGoogleBooksから入手し、かつ第1ページに免責事項が記載されている場合、派生データ生成プロセスは、免責事項ページに隠れたテキストレイヤーを検知し、自動生成を全くせずにスキップした場合は残りのPDFページにも同様に隠れたテキストレイヤーが埋め込まれていると仮定します。免責事項ページは保持しながらも、隠れたテキストを全て除去するのが最善の方法です。この理由は、DjVuファイルの同時生成に関連します。このページを空白ページに変えるのも問題ありませんし、最悪の場合はもちろん、免責事項ページを削除してもかまいません。

[4] rumを参照

[5] 例：Vocabolario degli accademici della Crusca（1691年）は5.1日かかりました。

[6] 2013年以降Version 9.0を利用

[7] 例では、djvudigitalによるアウトプットと比較して、1/6に圧縮されています。

[example-8] 例：Gallicaの1691年版は205MBのPDFファイルです。これをpdf2djvu.shスクリプトで変換すると382.4MBになりますが、ほとんど読めません。djvudigitalを利用すると316.7 MBになり、少し読みやすくなります。インターネット・アーカイブを使うと、51.3MBになり、より品質のよいファイルになります。

[9] FAQ; documentation of the format to use. 註：拡張子は全て小文字にしてください、tifの"f"は1つにしてください、画像のppiの値をメタデータに入力してください。画像アーカイブが認識されない場合は、メタデータを編集してフォーマットを"Single Page Processed TIFF ZIP"（TARファイルの場合も）に設定するなどすれば改善されるかもしれません。おそらく、まずはthe _images.zipアーカイブフォーマット

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]