平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤　英俊

漢字コードについて 平成10年5月25日 Windows NT 漢字処理技術協議会 WG2（ｺｰﾄﾞ&ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤　英俊

コード問題についての整理 JIS漢字コード拡張計画の進捗状況内容・コード系のおさらい・漢字コードについての世の中の議論・いわゆる第3・第4水準の標準化作業の現状

コード系のおさらい ・ ISO 2022系　　複数の 1バイト7ビットコード／8ビットコード　　２バイト7ビットコード／8ビットコードを　　「指示」（エクスケープシーケンス）と　　「呼出し」（シフトコード）を用いて　　同一システムで混在使用 ISO 2022Code Extention Technique JIS X 0202　符号拡張技法

b7 b6 b5 b4 b3 b2 b1 SP 制御キャラクタ図形ｷｬﾗｸﾀﾛｰﾏ文字 DEL ＩＳＯ２０２２系コード１バイトコード７単位 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 1 b7～b5 b4～b1 0 0 0 0 SP 制御キャラクタ SO 図形ｷｬﾗｸﾀ仮名 SI DEL 1 1 1 1

b8 b7 b6 b5 b4 b3 b2 b1 ＩＳＯ２０２２系コード１バイトコード８単位 0 1 0 0 0 1 0 0 0 0 0 0 11 11 b8～b5 b4～b1 0 0 0 0 制御キャラクタ SP 未定義未定義図形ｷｬﾗｸﾀ図形ｷｬﾗｸﾀﾛｰﾏ文字仮名 (GL) (GR) DEL 未定義 (CO) 1 1 1 1

0000 ～ 1111 0000 ～ 1111 ＩＳＯ２０２２系　２バイトコード b8 b1 b8 b1 第１バイト第２バイト b8=0 b8=1 b8 b7～b5 b4～b1 000 制御コードスペース 0 図形ｷｬﾗｸﾀ GL 94×94 =8836 111 未定義 000 未定義デリート 1 図形ｷｬﾗｸﾀ GR 111 未定義未定義制御コード

ＪＩＳＸ ０２０８－１９９０　　　　　情報交換用漢字符号点 1 94 1 非漢字５２４字 8 9 （未定義） 15 16 第１水準漢字　２９６５字 47 48 区第２水準漢字　３３９０字 84 85 （未定義） 94

ＪＩＳＸ ０２１２－１９９０　　情報交換用漢字符号－補助漢字点 1 94 1 非漢字　　　２４５字（1区、3～5区、8区、12～15区は未定義） 15 16 漢字　　　５８０１字区 77 78 （未定義） 84 85 94

GL GR G0 G1 G2 G3 ＩＳＯ２０２２コード拡張技法の概念図概念であって厳密でないので注意 LS0 LS3R LS3 呼出し LS2R LS1 LS2 LS1R （シフトコード）指示（ｴｽｹｰﾌﾟｼｰｹﾝｽ） ESCIF ESCI1I2F X0208 X0212 X0201 Ｆ：ファイナルキャラクタ＝図形文字セットのＩＤ

コード系のおさらい ・シフトJIS ISO 2022系のコードで1バイトコードと 2バイトコードを「指示／呼出し」なしで　　　混在使用するため1バイトエリアと 2バイトエリアが重ならないよう 2バイトエリアをシフトしたもの　　　簡便だが拡張性に乏しい　　　（ex.X0212補助漢字は使えない）

シフトＪＩＳコード １バイト見て、１バイトエリアか２バイトエリアか知る２バイトのエリアなら次のバイトと合わせて１字のコード 21 7E 21 英　数１バイト　エリア 7E ２バイト　エリア 81 9F 40 FC カ　ナ１バイト　エリア 40 FC E0 ２バイト　エリア FC

コード系のおさらい ・ ISO 10646 UCS、Unicode 　　　従来のISO 2022とは異なり2オクテット　　　（10646は2および4オクテット）の　　　単一コード系 ISO 2022との互換はない　　　非漢字は各国文字に個別コードを付与　　　漢字はC、J、K、各国漢字を統合化

群7F 群01 群00 点 256 区 256 面 00 ＩＳＯ／ＩＥＣ１０６４６－１：１９９３ＵＣＳ（ＪＩＳＸ０２２１－１９９５）

ＩＳＯ／ＩＥＣ１０６４６－１：１９９３ ＵＣＳ（ＪＩＳＸ０２２１－１９９５）群面区点 UCS4 群00／面00：ＢＭＰ（基本多言語面）＝ＵＣＳ２＝ Unicode

00 FF Ａ領域（ｱﾙﾌｧﾍﾞｯﾄ記号類） 19,903 40 Ｉ領域（ＣＪＫ統合漢字） 20,992 A0 Ｏ領域（未定義） E0 Ｒ領域（ＰＵＡ、互換文字等）ＢＭＰ（基本多言語面） PUA（私用領域）はE000～F8FFの6400字分

ＣＪＫ統合漢字

コード系についての世の中の議論 ・ Unicode批判を客観的に整理　１．使える文字が限定される　１．コード枠に制限がある　（注．UTF16の回避策）　２．漢字を統合したのが問題　３．制定の経緯が気にくわない　　　　民主主義（多数決論理）の悪用に　　　　　よる多国籍企業の横暴　４．従来の国内規格との互換性がない　　　　　欧米企業には都合よい規格　　　　　（現代の黒船、日本への経済侵略）　 ′

批判についての私の意見 　１．使える文字が限定　　　　文字についての把え方の議論が不足　　　　異なり字（親字）か異体字の不足か？　　　　解決策は別　１．コード枠に制限　　　　学術研究用（例：古代文字も必要）には　　　　別の規格でよい　　　　一般用規格のスーパーセットならなお可　２．漢字統合の問題　　　　やり直せるならやり直せば！　　　　やり直せないようなら利用方法を考えよう！ ′

批判についての私の意見 　３．制定の経緯の問題　　　　感情論を言ってても仕方ない　４．従来規格と非互換　　　　承知で（多数決）で決めたのだから仕方ない　　　　フル変換は覚悟の上だろう　５．その他　　　　皆、自分の立場でしか意見を言っていない　　　　解決策の提言がない　

漢字コードについての私の意見、提言 　分野によってニーズは異なる　　・学術研究分野：古代文字までコード化が必要　　・戸籍処理：誤字、俗字の類いの異り字、　　　　　　　　　異体字もDB上で区別が必要　　　　異体字はプレゼンテーションレベルの問題　　　　という考えは違う　　・一般OA：たまに使う異り字、異体字は　　　　　　　　　外字処理で可能　　　　　　　　　経済性も大事

漢字コードについての私の意見、提言 　異体字を指定できるスキームが必要　　例えば異体字ファンクションと異体字番号で指定 ex.　渡辺　　　　　　　　　　　　　　　渡邊　　　異体字は登録制で台帳管理　　　　　　フォントを実装すれば渡邊が出るし　　　　　　フォントがなくても渡辺の異体字で　　　　　　あることは明白　　　異体字かどうかの判断規準（現在の包摂規準　　　とは目的が別）作りと常設管理機関が必要異体字ﾌｧﾝｸｼｮﾝ異体字番号

JIS第3、第4水準標準化の進捗状況 　スケジュール　　・昨年度（1997）初めから検討開始　　　本年度中（1998）にJIS原案完成目標　　・本年9月～12月に公開レビュー予定で準備中　　・現在の状況は下記Ｗｅｂで公開中 http://jcs.aa.tufs.ac.jp/jcs/new-jis/

JIS第3、第4水準標準化の進捗状況 　目的　　・現代日本語を符号化するために十分な　　　文字集合を提供すること　　・JIS X 0208と同時に用い、JIS X 0208を　　　補完するものであること　　　目標は約5000字の漢字と記号類　　・現状の使用環境で直ちに実装できること

JIS第3、第4水準標準化の進捗状況 　現状（Web公開内容から再編集）　・漢字　　　資料を入手し資料間の1字毎の照合を実施中　　　既にかなりの部分は終っており、　　　その異り字数は約7200字　典拠資料／調査対象資料分野 NTTハローページ（1997/2）、NTT契約者名簿人名町字ファイル外字（国土地理協会）、町字ファイル書き換え文字 1万分の1地図／2万5千分の1地図（国土地理院）地名法例現行法律・政令・省令外字

典拠資料／調査対象資料 分野新首字、熟語専用字の一方だけX0208にあるもの日本国語大辞典（新版）外字（小学館）広辞苑外字（岩波書店）、大辞林外字（三省堂）共同通信社外字一般文部省学術用語集、切韻印目（鉅宋広韻による）、韻鏡三十六字母小・中・高校検定済全教科書1500冊新潮文庫の100冊/明治の文豪/大正の文豪（新潮社）大正新修大蔵経所収漢字（大蔵出版社）中国医学古典用外字（日本内経医学会）学術その他 (不明) IBM選定文字、JIPS（日本電気）拡張文字、 JEF（富士通）拡張文字 JIS第3、第4水準標準化の進捗状況

JIS第3、第4水準標準化の進捗状況 　　・非漢字　　　　　資料を入手し検討中　　　　　　・アイヌ語表記の仮名　　　　　　・鼻濁音表記の仮名　　　　　　・歯科記号

JIS第3、第4水準についての問題点 人名漢字が増えても　戸籍処理上の問題解決にはならないシフトJISに適用すると　・現在のAPのほとんどは動作しないと思われる　　　中国でGBKが実装されて大騒動発生と　　　同じパターン　・ユーザー外字が使えない

漢字コードについて 終

平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 （ｺｰﾄﾞ & ｷｬﾗｸﾀｰｾｯﾄ）ﾘｰﾀﾞｰ NEC オフィスシステム伊藤　英俊