1 / 15

CNS11643 擴編說明

CNS11643 擴編說明. 曾士熊 2003 年 11 月 28 日. CNS 11643 的沿革. CNS 11643 的編碼工作,始於民國 69 年間,歷經多次轉折,直到 75 年才由中央標準局公佈,取名為「通用漢字標準交換碼」(簡稱通用碼)。 通用碼原只收錄 13,051 個中文字(第 1 及第 2 字面),但主計處電子處理資料中心於民國 77 年另外公佈了 6,148 個使用者加字及編碼(於 81 年版編入第 3 字面)。

zasha
Download Presentation

CNS11643 擴編說明

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CNS11643擴編說明 曾士熊 2003年11月28日

  2. CNS 11643的沿革 • CNS 11643的編碼工作,始於民國69年間,歷經多次轉折,直到75年才由中央標準局公佈,取名為「通用漢字標準交換碼」(簡稱通用碼)。 • 通用碼原只收錄13,051個中文字(第1及第2字面),但主計處電子處理資料中心於民國77年另外公佈了6,148個使用者加字及編碼(於81年版編入第3字面)。 • 民國79年,中央標準局委託資訊工業策進會首度擴編通用碼為48,027個中文字(第1至第7字面) ,於民國81年公佈,同時更名為「中文標準交換碼」(CSIC, Chinese Standard Interchange Code)。 • 民國92年初,標準檢驗局委託財團法人中文數位化技術推廣基金會再度擴編CNS 11643。

  3. CNS 11643的編碼架構 • 81年版CNS 11643為16字面,93年版CNS 11643擴增至80個字面。 • CSIC的正規編碼為兩個位元組:依ISO 2022的規定,每一位元組的值為33~126(16進制21~7E),故每一字面為94X94=8,836個字格(編碼位置)。

  4. CNS 11643的編碼架構[續] • CSIC的正規字元碼:H4H3-H2H1H4H3為字列位元組的16進制數值H2H1為字格位元組的16進制數值正規字元碼不具唯一性,亦即不屬同一字面的 相同字元碼代表不同字元。 • CSIC的延伸字元碼:H6H5-H4H3-H2H1H6 H5為字面指示碼,其值為16進制01~4F H4 H3 H2 H1為正規字元碼延伸字元碼因可區分字面而具有唯一性。

  5. CNS 11643的字面配置 • 81年版CNS 11643:第1字面:收錄684個常用符號及部首,以及 5,401個常用中文字。第2字面:收錄7,650個次常用中文字區。第3字面:收錄6,148個罕用中文字(含政府機關 用字)。 第4字面:收錄7,298個罕用中文字(含戶政用 字)。第5字面:收錄8,603個罕用中文字。第6字面:收錄6,388個異體字。第7字面:收錄6,539個異體字。

  6. CNS 11643的字面配置[續] • 93年版CNS 11643擬擴編:第1字面:新增歐元符號、漢數字零、日語音標和白話 字,補齊注音符號和康熙部首。第3字面:新增247個罕用中文字。第8~9字面:符號區,收錄已編入UCS但未編入CSIC的 符號。第10~11字面:罕用中文字區,收錄已編入UCS第2字 面但未編入CSIC的表意文字。第12~15字面:罕用中文字區,收錄戶政用字未編入 CSIC者。第14字面另收錄已編入UCS BMP但 未編入CSIC的表意文字。 第16字面:使用者造字區。第17~80字面:保留,供未來擴充字集使用。

  7. CNS 11643的符合性 備用字元集 逸出順序 字元集庫 挑取控制符 1B-28-42 G0 ASCII SI 現用字元集 1B-24-29-47 G1 CSIC第1字面 SO LS2或SS2 1B-24-2A-48 G2 CSIC第2字面 LS3或SS3 1B-24-2B-[F]或1B-24-2B-[I]-[F] G3 CSIC第3~第80字面

  8. CNS 11643的符合性[續1] • 挑取控制符

  9. CNS 11643的符合性[續2] • CSIC第1~第7字面的[F]

  10. CNS 11643的符合性[續3] • CSIC第8~第16字面的[F]

  11. CNS 11643的符合性[續4] • CSIC第17~第80字面的[I]-[F]

  12. CNS 11643的准符合性 • 延伸字元碼的應用-字元碼格式:三位元組 H6H5-H4H3-H2H1-H6H5為字面位元組,其值為21~6F(即字面 指示碼+20,以避開控制字元集C0)或A1~EF(即字面指示碼+A0,以避開控制字 元集C1)。-H4H3為字列位元組,其值為21~FE。-H2H1為字格位元組,其值為21~FE。延伸字元碼部分位元組的值可能與UNIX家族作 業系統或應用程式的控制碼衝突。

  13. CNS 11643的准符合性[續1] • ASCII式延伸字元碼-字元碼格式:六位元組H6-H5-H4-H3-H2-H1-H6及H5:將字面指示碼H6H5的值轉換為2個ASCII碼。-H4及H3:將字列位元組H4H3的值轉換為2個ASCII碼。-H2及H1:將字列位元組H2H1的值轉換為2個ASCII碼。將16進數的0至9轉換為阿拉伯數字“0”至“9”(其ASCII碼為30至39),以及將A至F轉換為大寫英文字母“A”至“F”(其ASCII碼為41至46)。

  14. CNS 11643的准符合性[續2] • EUC的編碼格式

  15. CNS 11643的准符合性[續3] • EUC式CSIC-編碼格式-EUC識別符:SS2,其值為8E-字面位元組:字面指示碼(01~4F)+A0-字列位元組:H4H3(21~7E)+80-字格位元組:H2H1(21~7E)+80

More Related