関連用語解説
《三國演義》ホームページで使われている用語の説明をまとめました。
Unicode / ユニコード
Unicode協議会(Unicode Consortium)
が提唱する全世界共通の文字コード体系およびエンコード方法の規格のことです。
コード体系にはUnicode(21ビット版)とUCS-4(31ビット版)の2種類があり、UCS-4はUnicodeの上位互換となっています。
Unicodeは16進表現の10FFFF までの約111万文字、UCS-4は更に上の7FFFFFFFまでの約21億文字をそれぞれ収容できる膨大なコード空間を持っており、勿論多数の漢字が割り当られています。
また、エンコード方法にはUTF-16(16ビット版)やUTF-8(8 ビット版)などがあり、WWW ではHTML タグが7ビットASCIIと互換的に使用できるUTF-8が好まれているようです。
このホームページでは、Unicodeのバージョン3.2コード体系とUTF-8エンコード方法を採用しています。
CJK統合字面 / CJK Unified Ideographs
Unicode体系のうち16進表現の4E00から9FFFまでの約2万字分の領域で、中国・日本・韓国(CJK)3大漢字圏で日常使用される頻度の高い漢字を割り当てた部分です。
いわばUnicodeの「第1水準漢字」であるこのCJK統合字面には、私達が普段使い慣れたJIS漢字(JIS X 0208)6956字に加え、補助JIS(JIS X 0212)5801字も丸ごとすっぽり収容されています。
このホームページが実現したのは、まさにこのCJK統合字面のお蔭と言えます。
CJK拡張字面 / CJK Unified Ideographs Extensions
Unicode体系のうち、16進表現の3400から4DFFまでの7千字弱の領域をCJK拡張字面A、20000から2F7FFまでの約6万3千字の領域をCJK拡張字面Bと呼んでいます。
使用頻度の低い漢字が拡張Aに、滅多に使われない漢字が拡張Bにそれぞれ割り当てられているようです。
いわばUnicodeの「第2水準・第3水準漢字」です。
CJK互換字面 / CJK Compatibility Ideographs
Unicode体系のうち16進表現のF900からFAFFまでと2F800から2FAFFまでの千3百字弱の小さな領域で、中・日・韓で同じCJK統合字面コードを共有しながら字体に若干の差異がある場合などに、それを吸収するために設けられた領域です。
このホームページでは、CJK互換字面の漢字は一切使用していません。
Unihanデータベース / Unihan Database
Unicode協議会内での中・日・韓漢字のデータベース化プロジェクトおよびそのデータベースの名称です。
このデータベースには、全Unicode漢字について、各種文字コード間の変換情報は勿論、部首・画数、意味、主要辞典の見出し番号など、さまざまな情報が盛り込まれています。
データベースとは言っても実物はただのテキスト文書なので、どんな環境でも間単に取り扱うことができます。
詳しくは
こちらをご覧ください。
エンディアン / Endianness
マルチ・バイト文字コードなど複数バイトで1個の数を表現する場合に、上位桁のバイトが先に来るものを「ビッグ・エンディアン(Big endian)」、逆に下位桁のバイトが先に来るものを「リトル・エンディアン(Little endian)」と呼びます。
Microsoft DOS/Windows系のシステムでは伝統的にリトル・エンディアンが標準なので、それが取り扱うマルチ・バイトUnicode(UTF-16エンコード方法など)もリトル・エンディアンが普通のようです。
しかし、世の中にはビッグとリトルが混在しているのが現状です。
これは、16ビット以上の空間をフルに使用するUnicodeにとっては都合が良くありません。
例えば、16進表現で「12」「34」というバイトがある時、それがUCSで「1234」(ビッグ)なのか、「3412」(リトル)なのか、見ただけでは判断できなくなってしまうからです。
Unicodeにはわざわざそれを区別するためだけの目に見えない「バイト順指定文字」(Byte-Order Mark)が用意されていて、16進表現でFEFFが割り当てられています。
例えば、「FF」「FE」「12」「34」ならば「3412」(リトル)となる訳です。
当然ですが、せっかくのバイト順指定文字があべこべに解釈されないようにコードFFFEは欠番になっています。
サロゲート・ペア / Surrogate Pairs
UTF-16エンコード方法で17ビット以上21ビット以下のUnicode(漢字に関してはCJK拡張字面Bがここに該当します)を表現するための窮余の(?)策です。
16ビットで収まり切らない分(20ビット相当)を半分ずつ2つに分けて、それぞれを専用領域にはめ込んで作った一組の16ビット・コード対を「サロゲート・ペア」と呼びます。
その専用領域(16進表現でD800からDFFFまで)を「サロゲート領域」と呼び、当然ですが単独では文字が一切割り当てられていません。
XYZ変体 / XYZ Variants
Unicodeでは、文字は便宜上X軸・Y軸・Z軸という3つの切り口で分類されています。
X軸は「意味」、Y軸は「形」、Z軸は「見た目(細部)」に対応し、それぞれの軸について3種類の変体があり得ます。
「X変体」は同形異義字(形は同じだが意味の異なるもの)、「Y変体」は同義異形字(意味は同じだが形の異なるもの)、「Z変体」は同字異体(同じ字だが見た目の少し異なるもの)です。
JIS X 0208 / 7ビット及び8ビットの2バイト情報交換用符号化漢字集合
いわゆる「JIS漢字」です。私達が普段メール交換や文書作成に使用している漢字そのものです。
それ以上の説明は要らないでしょう。
JIS X 0212 / 情報交換用漢字符号 - 補助漢字
いわゆる「JIS補助漢字」です。JIS X 0208は日常語を処理するのには十分でも、文学作品など、より高度な文章を取り扱うにはどうしても文字が足らないという要求から、1990年に制定されたものです。
漢字5801字から成っていて、その全てがCJK統合字面にすっぽりと収まっています。
JIS X 0208との重複はなく、あくまでもそれにプラスして使用するためのものです。
JIS X 0208と同じ区点を共有していて字面の切り替えが必要なのと、Shift JISエンコード方法で使用できなかったため、JIS規格そのものとしてはあまり普及しませんでしたが、Unicode に形を変えてどっこい生きています。
JIS X 0213 / 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合
いわゆる「JIS2000漢字」です。
JIS X 0212の反省(?)から、Shift JISと親和性の良い拡張として2000年に制定されました。
その名の通り、JIS X 0208をその中にすっぽり含んだ拡張漢字の集合です。
JIS X 0213の一番の特長は、Shift JISエンコード方法の場合に追加部分が従来の空き領域にうまく収まるように配慮されていて、字面切り替えなどの面倒な操作が一切なく使用できるようになっている点です。
ただし、それだけに追加の漢字数は若干少なく、また地名・人名に重点を置いているため日本固有の異体字が多数入っていて、Unicodeとの相性も良くないようです。
JIS2004問題 / JIS2004 Panic
JIS X 0213には2004年に改正が入り、新しく10文字が追加されて、「JIS2004漢字」と呼ばれています。
追加までは良かったとして、同時に、168字(うち、JIS X 0208共通167字)について、
区点はそのままで例示字形だけ変更されてしまった
のです。
その後、Microsoft社は律儀にもその字形をそっくりそのまま踏襲する形で同社の基本ソフトVistaの標準フォントも変更してしまい、いわゆる「Windows Vista JIS2004字形問題」を引き起こすことになりました。
何せ経済産業省が「徐々に…変更されることが期待される」とまで言っちゃってますし、Microsoft社に非は全くありません。
ですが、一般の利用者の間では「パソコンを買い換えただけで文字が変わるなんて許せない」などと、喧しいことしきりの事態と相なっています。
とかく問題視されるこの字形変更ですが、どうやらコンセプトは「伝統回帰」らしいです。
例えば、「諸葛亮」の「葛」の字の下半分は元来「匂」ではなく「匃」なはずなのですが、この字形変更まで(JIS X 0208:1997)は「匂」になっていて、作成者にとっては正直苦々しい限りでした。
しかし、この変更(JIS X 0213:2004)のお蔭で晴れて「匃」となり、収まるべき所に収まる感があります。
東京都「葛」飾区の皆さんには大変悪いのですが、このホームページで使用する限りは非常に有難い変更が多くて、作成者自身は両手を挙げて大賛成であります。
どうせなら、「儲」や「賭」みたく「諸」の「者」にもテンを入れてくれたらもっと良かったのになどと考えているぐらいです。
因みに、この「諸」の字はUnihanデータベースでは言部9画と見なされていて、Unicode的にはテンがあるのが普通のつもりのようです。
Big5 / 五大碼
台湾・香港をなど繁体中国語圏で広く使われている漢字コードです。
JIS X 0208やJIS X 0212と同様Unicode の原規格のひとつで、その漢字13063字は全てCJK統合字面に収まっています。
Big5には様々な拡張がなされていて、いささか混乱気味ではありますが、このホームページではMingLiUフォントがほぼサポートしてくれているHKSCS(香港增補字符集)の拡張部分3726字もBig5とみなしました。
なお、Big5 には文字コードとエンコード方法が共通であるという特長があります。
Code Page 932 / コード・ページ932
Microsoft DOS/Windows系のシステムでの日本語文字セットの名称です。
漢字に関しては大体JIS X 0208と同じですが、「鄧」「彧」など若干の追加があります。
これら追加漢字は機種依存文字となるためWWWでの利用には不向きでしたが、Unicodeのお蔭でこうして堂々と利用できるようになりました。
繁体中国語 / 繁體中文
日本で言う「旧字体」を使用して記述する、台湾・香港などの中国語のことで、漢字の画数が多いのでこの名があります。
一方、大陸中国で使用されている簡略字体の中国語は「簡体中国語」と呼ばれています。
ほんの一例ですが、「楽」という漢字をそれぞれで比較したものを掲げておきます。
このホームページの原文では、簡体中国語の漢字は一切使用していません。
WWW埋め込みフォント / Embedded Fonts
ホームページ上で外字フォントを使用するための仕組み、あるいはそのフォントのことです。
従来、外字は機種依存(ひどい場合には端末依存)でしたが、文書上に輪郭情報などを含むフォント・データを埋め込むことによってネット上で交換できるように工夫されています。
現在のところ、WWW埋め込みフォントの形式としてはMicrosoftが提唱するEmbedded OpenType(EOT)とBitstreamが提唱するPortable Font Resource(PFR)が有名ですが、どうやらPFRの方は消え行く運命にあるようです。
このホームページでは、仕様が非公開のため普及は今ひとつなものの、埋め込みツール(
WEFT
)がタダで使えるEmbedded OpenTypeを使用しています。
なお、Microsoft Windows上のInternet Explorer 6.0はこのEmbedded OpenTypeに対応しています。