異体字

旧字体・異体字など一部の漢字は、JIS X 0201またはJIS X 0208の範囲外にあるために、入力や閲覧に難がある場合があります。この記事では、JIS X 0201とJIS X 0208の範囲外の字を外字と呼びます。テキストをありのままに再現するためには外字を使わざるをえません。この記事では異体字など外字の入力・表示のための参考情報を提供します。

フォント 編集

正しい字で閲覧する場合や、外字が含まれる記事を編集する場合は、対応フォントが必要です。文字化けして見えない、あるいは異体字セレクタが使われていて正常に表示されない場合には、ブラウザ・エディタの設定画面を開き、表示フォントを変えてみてください。収録されている字体の制限により見えない場合には、花園フォントIPAmj明朝Y.OzFontなどを導入すれば改善されます。

入力の手順 編集

対応ブラウザ・エディタの準備 編集

他言語やJIS第三第四水準漢字等、JIS X 0201JIS X 0208以外の文字が含まれるページを編集するときに、■や?等に文字化けするなど、問題が発生しやすい傾向にあります。JIS X 0201とJIS X 0208を逸脱する文字には対応していないブラウザやエディタが少なくないためです。対応しているブラウザやエディタを使ってください。

字体差かデザイン差かの判定 編集

字体が異なる場合は異体字として区別する必要がありますが、単なるデザイン差の場合はわざわざ区別する必要はありません。一般的なデザインの字を入力してください。判断基準は、常用漢字表と表外漢字字体表などを参考にします。迷った場合は、異体字とみなして底本の字形で入力してください。

入力 編集

外字を入力するためには、以下の方法があります。

  1. ツール・スクリプトを利用する(詳細はWikisource:ツール・スクリプトをご覧ください)。
  2. キーボードから直接入力する(日本語入力システムを使っている場合)。
  3. 異体字セレクタを利用する。
  4. HTMLの数値文字参照を使用する。例えば 神(神)。残念ながら、一部の古いブラウザでは、これらのコードを正しく変換できません。
  5. 文字コード表などの文字マップ系のアプリケーションからコピーアンドペーストする。

日本語環境でキーボードから直接入力できる文字は、文字化けする可能性が低いです。異体字セレクタの場合は、非対応環境でも代替文字で表示されます。これらの方法で入力できない文字は、編集時の文字化けを避けるため、文字をそのまま入力するのではなく、できるかぎり数値文字参照で入力してください。最後の方法は、ほかの執筆者が編集できなくなったり、文字化けが起こって記事の内容を壊してしまうことがあるので、なるべく使わないでください。

異体字への自動変換はWikisource:ツール・スクリプトでも行うことができますが、外部サイトを利用する場合は「旧字体 変換」あたりで検索してください。個人設定で新旧字体校閲ガジェットを有効にすることもできます。異体字セレクタ使用時に必要な文字コードはMJ文字情報一覧表異体字セレクタセレクタなどから調べてください。文字参照数値はインターネットで検索することもできますが、利用者登録してログインすれば、個人設定によりワンクリック変換してくれるガジェットを使用することもできます。

外字を使えない場合 編集

ページ名を入力する場合(Wikisource:記事名の付け方をご覧ください)など、技術的ほかの理由により外字を使えない場合があります。また、新字体に平易化した版や現代語訳を作る場合は、目的からして、人名等を除き、異体字を用いるべきではないでしょう。Wikipedia:表記ガイドに準じます。

入力時の問題 編集

プレビュー・保存時に別の字体に変わる文字があります 編集

入力した文字がCJK互換漢字(U+F900 - U+FAFF)及びCJK互換漢字補助(U+2F800 - U+2FA1F)(以下まとめてCJK互換漢字と呼びます)の場合、プレビュー・保存等を行った場合、MediaWikiの仕様により、UnicodeのC型正規化(NFC)を行い、CJK統合漢字に分解(変換)されます。例えば「神」と入力した場合、プレビューや保存をすると「神」に正規化されます。例外として、「﨎﨏﨑﨓﨔﨟﨡﨣﨤﨧﨨﨩」の12文字は、CJK互換漢字に含まれる文字ですが規格上CJK統合漢字として扱われます。

CJK互換漢字にある文字の字体を使用したい場合は、Standardized Variation Sequence (標準化された異体字シーケンス、略称SVS) に定義されたCJK互換漢字相当の字体を表現する異体字シーケンスを使用します。例えば、CJK互換漢字の神(U+FA19)は、CJK互換漢字SVSでは神︀(U+795E U+FE00)に対応します。[1][2]

もうひとつの方法として、CJK互換漢字を数値文字参照で入力する方法もありますが非推奨です。[3]例えば、「神」と入力すれば「神」と出力されます。ただし、ボットによる自動処理などにおいて問題が生じる場合があります。[4]数値文字参照で使用するCJK互換漢字のコードポイントはインターネットで調べることもできますが、個人設定によりワンクリック変換してくれるガジェットを使用することもできます。

編集したら、■や?等に文字化けしていた 編集

他言語やJIS第三第四水準漢字等に対応していないブラウザやエディタを用いて編集したためでしょう。JIS X 0201JIS X 0208以外の文字が含まれるページは、問題が発生しやすい傾向にあります。JIS X 0201とJIS X 0208を逸脱する文字には対応していないブラウザやエディタが少なくないためです。対応しているブラウザやエディタを使いましょう。

ページ名には制約あり 編集

旧字をはじめ異体字を使わないことには成り立たないウィキソース日本語版ですが、ページ名については技術的ほかの理由により制約を取り決めています。Wikisource:記事名の付け方をご覧ください。

新字新仮名遣版や現代語訳を作る場合 編集

目的からして、人名等を除き、異体字を用いるべきではないでしょう。Wikipedia:表記ガイドに準じます。

異体字への漢字変換が面倒くさい 編集

異体字への自動変換はWikisource:ツール・スクリプトでも行うことができますが、外部サイトを利用する場合は「旧字体 変換」あたりで検索してみましょう。個人設定で新旧字体校閲ガジェットを有効にすることもできます。

閲覧者の問題 編集

文字化け 編集

JIS X 0201とJIS X 0208以外の文字は■や?などに文字化けして読めないことがあります。JIS X 0201とJIS X 0208を逸脱する文字には対応していないブラウザが少なくないためです。JIS X 0208版(JIS X 0201とJIS X 0208の字のみで作成した版)もある作品(例:教育勅語)も増えておりますが、JIS X 0208版が作成されるまでは外字に対応しているブラウザ・フォントで閲覧してください。

読めない。読み方がわからない 編集

利用者登録してログインすれば、個人設定で新旧字体変換ガジェットを有効にして、画面左上に現れる「常用」タブをクリックすることで、常用漢字に表示を変換できます。

関連項目 編集

関連文献 編集



  1. CJK互換漢字がやられたようだな-帰ってきた💫Unicode刑事〔デカ〕リターンズ
  2. Twitterで旧字が化ける? CJK互換漢字という罠-にせねこメモ
  3. 本来CJK互換漢字に含まれる文字は、原則ラウンドトリップ変換の互換性の確保(Unicode以外の文字コード→Unicode→>Unicode以外の文字コードというような変換において、元通りに戻るよう配慮すること)を目的としてUnicodeに収録された文字のため、ラウンド・トリップ変換の用途以外の使用は推奨されません。
  4. 2019年現在、AutoWikiBrowser最新版では、CJK互換漢字の文字参照を含むページの処理がスキップされます。