150 likes | 317 Views
CNS11643 擴編說明. 曾士熊 2003 年 11 月 28 日. CNS 11643 的沿革. CNS 11643 的編碼工作,始於民國 69 年間,歷經多次轉折,直到 75 年才由中央標準局公佈,取名為「通用漢字標準交換碼」(簡稱通用碼)。 通用碼原只收錄 13,051 個中文字(第 1 及第 2 字面),但主計處電子處理資料中心於民國 77 年另外公佈了 6,148 個使用者加字及編碼(於 81 年版編入第 3 字面)。
E N D
CNS11643擴編說明 曾士熊 2003年11月28日
CNS 11643的沿革 • CNS 11643的編碼工作,始於民國69年間,歷經多次轉折,直到75年才由中央標準局公佈,取名為「通用漢字標準交換碼」(簡稱通用碼)。 • 通用碼原只收錄13,051個中文字(第1及第2字面),但主計處電子處理資料中心於民國77年另外公佈了6,148個使用者加字及編碼(於81年版編入第3字面)。 • 民國79年,中央標準局委託資訊工業策進會首度擴編通用碼為48,027個中文字(第1至第7字面) ,於民國81年公佈,同時更名為「中文標準交換碼」(CSIC, Chinese Standard Interchange Code)。 • 民國92年初,標準檢驗局委託財團法人中文數位化技術推廣基金會再度擴編CNS 11643。
CNS 11643的編碼架構 • 81年版CNS 11643為16字面,93年版CNS 11643擴增至80個字面。 • CSIC的正規編碼為兩個位元組:依ISO 2022的規定,每一位元組的值為33~126(16進制21~7E),故每一字面為94X94=8,836個字格(編碼位置)。
CNS 11643的編碼架構[續] • CSIC的正規字元碼:H4H3-H2H1H4H3為字列位元組的16進制數值H2H1為字格位元組的16進制數值正規字元碼不具唯一性,亦即不屬同一字面的 相同字元碼代表不同字元。 • CSIC的延伸字元碼:H6H5-H4H3-H2H1H6 H5為字面指示碼,其值為16進制01~4F H4 H3 H2 H1為正規字元碼延伸字元碼因可區分字面而具有唯一性。
CNS 11643的字面配置 • 81年版CNS 11643:第1字面:收錄684個常用符號及部首,以及 5,401個常用中文字。第2字面:收錄7,650個次常用中文字區。第3字面:收錄6,148個罕用中文字(含政府機關 用字)。 第4字面:收錄7,298個罕用中文字(含戶政用 字)。第5字面:收錄8,603個罕用中文字。第6字面:收錄6,388個異體字。第7字面:收錄6,539個異體字。
CNS 11643的字面配置[續] • 93年版CNS 11643擬擴編:第1字面:新增歐元符號、漢數字零、日語音標和白話 字,補齊注音符號和康熙部首。第3字面:新增247個罕用中文字。第8~9字面:符號區,收錄已編入UCS但未編入CSIC的 符號。第10~11字面:罕用中文字區,收錄已編入UCS第2字 面但未編入CSIC的表意文字。第12~15字面:罕用中文字區,收錄戶政用字未編入 CSIC者。第14字面另收錄已編入UCS BMP但 未編入CSIC的表意文字。 第16字面:使用者造字區。第17~80字面:保留,供未來擴充字集使用。
CNS 11643的符合性 備用字元集 逸出順序 字元集庫 挑取控制符 1B-28-42 G0 ASCII SI 現用字元集 1B-24-29-47 G1 CSIC第1字面 SO LS2或SS2 1B-24-2A-48 G2 CSIC第2字面 LS3或SS3 1B-24-2B-[F]或1B-24-2B-[I]-[F] G3 CSIC第3~第80字面
CNS 11643的符合性[續1] • 挑取控制符
CNS 11643的符合性[續2] • CSIC第1~第7字面的[F]
CNS 11643的符合性[續3] • CSIC第8~第16字面的[F]
CNS 11643的符合性[續4] • CSIC第17~第80字面的[I]-[F]
CNS 11643的准符合性 • 延伸字元碼的應用-字元碼格式:三位元組 H6H5-H4H3-H2H1-H6H5為字面位元組,其值為21~6F(即字面 指示碼+20,以避開控制字元集C0)或A1~EF(即字面指示碼+A0,以避開控制字 元集C1)。-H4H3為字列位元組,其值為21~FE。-H2H1為字格位元組,其值為21~FE。延伸字元碼部分位元組的值可能與UNIX家族作 業系統或應用程式的控制碼衝突。
CNS 11643的准符合性[續1] • ASCII式延伸字元碼-字元碼格式:六位元組H6-H5-H4-H3-H2-H1-H6及H5:將字面指示碼H6H5的值轉換為2個ASCII碼。-H4及H3:將字列位元組H4H3的值轉換為2個ASCII碼。-H2及H1:將字列位元組H2H1的值轉換為2個ASCII碼。將16進數的0至9轉換為阿拉伯數字“0”至“9”(其ASCII碼為30至39),以及將A至F轉換為大寫英文字母“A”至“F”(其ASCII碼為41至46)。
CNS 11643的准符合性[續2] • EUC的編碼格式
CNS 11643的准符合性[續3] • EUC式CSIC-編碼格式-EUC識別符:SS2,其值為8E-字面位元組:字面指示碼(01~4F)+A0-字列位元組:H4H3(21~7E)+80-字格位元組:H2H1(21~7E)+80