280 likes | 364 Views
漢字コードについて. 平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊. コード問題についての整理. JIS 漢字コード拡張計画の進捗状況. 内 容. ・ コード系のおさらい ・ 漢字コードについての世の中の議論. ・ いわゆる第 3 ・第 4 水準の標準化 作業の現状. コード系のおさらい. ・ ISO 2022 系 複数の 1 バイト 7 ビットコード/ 8 ビットコード
E N D
漢字コードについて 平成10年5月25日 Windows NT 漢字処理技術協議会 WG2(コード&キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊
コード問題についての整理 JIS漢字コード拡張計画の進捗状況 内 容 ・ コード系のおさらい ・ 漢字コードについての世の中の議論 ・ いわゆる第3・第4水準の標準化 作業の現状
コード系のおさらい ・ ISO 2022系 複数の 1バイト7ビットコード/8ビットコード 2バイト7ビットコード/8ビットコードを 「指示」(エクスケープシーケンス)と 「呼出し」(シフトコード)を用いて 同一システムで混在使用 ISO 2022Code Extention Technique JIS X 0202 符号拡張技法
b7 b6 b5 b4 b3 b2 b1 SP 制御キャラクタ 図形キャラクタ ローマ文字 DEL ISO 2022系コード 1バイトコード 7単位 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 1 b7~b5 b4~b1 0 0 0 0 SP 制御キャラクタ SO 図形キャラクタ 仮 名 SI DEL 1 1 1 1
b8 b7 b6 b5 b4 b3 b2 b1 ISO 2022系コード 1バイトコード 8単位 0 1 0 0 0 1 0 0 0 0 0 0 11 11 b8~b5 b4~b1 0 0 0 0 制御キャラクタ SP 未定義 未 定 義 図形キャラクタ 図形キャラクタ ローマ文字 仮 名 (GL) (GR) DEL 未定義 (CO) 1 1 1 1
0000 ~ 1111 0000 ~ 1111 ISO 2022系 2バイトコード b8 b1 b8 b1 第1バイト 第2バイト b8=0 b8=1 b8 b7~b5 b4~b1 000 制御コード スペース 0 図形キャラクタ GL 94×94 =8836 111 未定義 000 未定義 デリート 1 図形キャラクタ GR 111 未定義 未定義 制御コード
JIS X 0208-1990 情報交換用漢字符号 点 1 94 1 非漢字524字 8 9 (未定義) 15 16 第1水準漢字 2965字 47 48 区 第2水準漢字 3390字 84 85 (未定義) 94
JIS X 0212-1990 情報交換用漢字符号-補助漢字 点 1 94 1 非漢字 245字 (1区、3~5区、8区、12~15区は未定義) 15 16 漢字 5801字 区 77 78 (未定義) 84 85 94
GL GR G0 G1 G2 G3 ISO 2022 コード拡張技法の概念図 概念であって 厳密でないので注意 LS0 LS3R LS3 呼出し LS2R LS1 LS2 LS1R (シフトコード) 指示 (エスケープシーケンス) ESCIF ESCI1I2F X0208 X0212 X0201 F:ファイナルキャラクタ=図形文字セットのID
コード系のおさらい ・ シフトJIS ISO 2022系のコードで1バイトコードと 2バイトコードを「指示/呼出し」なしで 混在使用するため1バイトエリアと 2バイトエリアが重ならないよう 2バイトエリアをシフトしたもの 簡便だが拡張性に乏しい (ex.X0212補助漢字は使えない)
シフトJISコード 1バイト見て、1バイトエリアか2バイトエリアか知る 2バイトのエリアなら次のバイトと合わせて1字のコード 21 7E 21 英 数 1バイト エリア 7E 2バイト エリア 81 9F 40 FC カ ナ 1バイト エリア 40 FC E0 2バイト エリア FC
コード系のおさらい ・ ISO 10646 UCS、Unicode 従来のISO 2022とは異なり2オクテット (10646は2および4オクテット)の 単一コード系 ISO 2022との互換はない 非漢字は各国文字に個別コードを付与 漢字はC、J、K、各国漢字を統合化
群7F 群01 群00 点 256 区 256 面 00 ISO/IEC 10646-1:1993 UCS(JIS X 0221-1995)
ISO/IEC 10646-1:1993 UCS(JIS X 0221-1995) 群 面 区 点 UCS4 群00/面00: BMP(基本多言語面)=UCS2 = Unicode
00 FF A領域 (アルファベット記号類) 19,903 40 I領域 (CJK統合漢字) 20,992 A0 O領域 (未定義) E0 R領域 (PUA、互換文字等) BMP(基本多言語面) PUA(私用領域)はE000~F8FFの6400字分
コード系についての世の中の議論 ・ Unicode批判を客観的に整理 1.使える文字が限定される 1.コード枠に制限がある (注.UTF16の回避策) 2.漢字を統合したのが問題 3.制定の経緯が気にくわない 民主主義(多数決論理)の悪用に よる多国籍企業の横暴 4.従来の国内規格との互換性がない 欧米企業には都合よい規格 (現代の黒船、日本への経済侵略) ′
批判についての私の意見 1.使える文字が限定 文字についての把え方の議論が不足 異なり字(親字)か異体字の不足か? 解決策は別 1.コード枠に制限 学術研究用(例:古代文字も必要)には 別の規格でよい 一般用規格のスーパーセットならなお可 2.漢字統合の問題 やり直せるならやり直せば! やり直せないようなら利用方法を考えよう! ′
批判についての私の意見 3.制定の経緯の問題 感情論を言ってても仕方ない 4.従来規格と非互換 承知で(多数決)で決めたのだから仕方ない フル変換は覚悟の上だろう 5.その他 皆、自分の立場でしか意見を言っていない 解決策の提言がない
漢字コードについての私の意見、提言 分野によってニーズは異なる ・学術研究分野:古代文字までコード化が必要 ・戸籍処理:誤字、俗字の類いの異り字、 異体字もDB上で区別が必要 異体字はプレゼンテーションレベルの問題 という考えは違う ・一般OA:たまに使う異り字、異体字は 外字処理で可能 経済性も大事
漢字コードについての私の意見、提言 異体字を指定できるスキームが必要 例えば異体字ファンクションと異体字番号で指定 ex. 渡辺 渡邊 異体字は登録制で台帳管理 フォントを実装すれば渡邊が出るし フォントがなくても渡辺の異体字で あることは明白 異体字かどうかの判断規準(現在の包摂規準 とは目的が別)作りと常設管理機関が必要 異体字 ファンクション 異体字 番号
JIS第3、第4水準標準化の進捗状況 スケジュール ・昨年度(1997)初めから検討開始 本年度中(1998)にJIS原案完成目標 ・本年9月~12月に公開レビュー予定で準備中 ・現在の状況は下記Webで公開中 http://jcs.aa.tufs.ac.jp/jcs/new-jis/
JIS第3、第4水準標準化の進捗状況 目的 ・現代日本語を符号化するために十分な 文字集合を提供すること ・JIS X 0208と同時に用い、JIS X 0208を 補完するものであること 目標は約5000字の漢字と記号類 ・現状の使用環境で直ちに実装できること
JIS第3、第4水準標準化の進捗状況 現状(Web公開内容から再編集) ・漢字 資料を入手し資料間の1字毎の照合を実施中 既にかなりの部分は終っており、 その異り字数は約7200字 典拠資料/調査対象資料 分野 NTTハローページ(1997/2)、NTT契約者名簿 人名 町字ファイル外字(国土地理協会)、 町字ファイル書き換え文字 1万分の1地図/2万5千分の1地図(国土地理院) 地名 法例 現行法律・政令・省令外字
典拠資料/調査対象資料 分野 新首字、熟語専用字の一方だけX0208にあるもの 日本国語大辞典(新版)外字(小学館) 広辞苑外字(岩波書店)、大辞林外字(三省堂) 共同通信社外字 一般 文部省学術用語集、切韻印目(鉅宋広韻による)、 韻鏡三十六字母 小・中・高校検定済全教科書1500冊 新潮文庫の100冊/明治の文豪/大正の文豪(新潮社) 大正新修大蔵経所収漢字(大蔵出版社) 中国医学古典用外字(日本内経医学会) 学術 その他 (不明) IBM選定文字、JIPS(日本電気)拡張文字、 JEF(富士通)拡張文字 JIS第3、第4水準標準化の進捗状況
JIS第3、第4水準標準化の進捗状況 ・非漢字 資料を入手し検討中 ・アイヌ語表記の仮名 ・鼻濁音表記の仮名 ・歯科記号
JIS第3、第4水準についての問題点 人名漢字が増えても 戸籍処理上の問題解決にはならない シフトJISに適用すると ・現在のAPのほとんどは動作しないと思われる 中国でGBKが実装されて大騒動発生と 同じパターン ・ユーザー外字が使えない