270 likes | 489 Views
中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士 中 华排检码研发公司. 中 华 排 检 码. 汉字无序之苦。 汉字有序之难。. 中 华 排 检 码. 报告 大纲 1. 定题 - 中华排检码 2. 几个设计参数 3. 结构和组成细节 4. 特性及优点 5. 总结. 定 题. 汉字排检”是排序和检索两 个 步骤, 是 两 个 用法 不同但却有密切关系的步骤。 排序是指按照某一种规律将字库内汉字排列成先后有序的一条汉字龙。
E N D
中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果报告 2008-11-06 宋安华博士 柴大定博士 林星雄博士 中华排检码研发公司
中 华 排 检 码 汉字无序之苦。 汉字有序之难。
中 华 排 检 码 报告大纲 1. 定题 - 中华排检码 2. 几个设计参数 3. 结构和组成细节 4. 特性及优点 5. 总结
定 题 汉字排检”是排序和检索两个步骤,是两个用法不同但却有密切关系的步骤。 排序是指按照某一种规律将字库内汉字排列成先后有序的一条汉字龙。 而检索是指按照汉字排序的规律,来查到要找的汉字。 汉字排序的最重要的两个基本要求是: 1. 有一个简单且实用的排序规律; 2. 汉字代码对汉字有单一性。就是一个汉字代码只对一个汉字。
中华排检码 - 几个设计参数 ·适合于电子计算机操作 ·不用固定二字节或多字节形式 ·使用现今通用亚司基码(ASCII,美国信息互换 标准代码) ·可用为内码 ·可满足将来信息化的需求
中华排检码 - 结构和组成细节 中 华 排 检 码 第一部份 第二部份 第三部份 字音 字形 辨別码 列表 1 -中华排检码的结构 中 华 排 检 码 第一部份 第二部份 第三部份 汉语拼音 四角号码 + 笔划数 辨別码 列表 2 -中华排检码具体组成部件
第一部份 第二部份 第三部份 中 华 排 检 码 中 zhong1 5000 zhong15000 hua2 华 2440 hua22440 pai2 排 5101 pai25101 jian3 检 4891 jian34891 ma3 码 1762 ma31762 中华排检码 - 举例之一 列表 3中华排检码例子之一
中华排检码 - 举例之二 列表 4 中华排检码例子之二
中华排检码 - 举例之三 列表 5 中华排检码例子之三
中华排检码 - 代码和汉字之间无重字率的关系 *国标码 (GB2312)列表 6中华排检码无重字率
中华排检码 - 汉字和汉字代码对照表 列表 7 汉字和汉字代码对照表 (举例-第 6071到 6100字)
中华排检码 - 特性及优点之一 1. 简单且实用的汉字排序规律 要解决汉字排检问题,最基本也是最重要的要求之一是要有一个简单且实用的排序规律。中华排检码是达到这一个要求。
中华排检码 - 特性及优点之二 2. 单一性 要解决汉字排检问题,汉字单一性这一个最基本也是最重要的要求之一是必须要满足的。 中华排检码是能够100%的达到这一个要求。
中华排检码 - 特性及优点之三 3. 繁体与简体字兼容 列表 8繁体与简体字兼容举例
中华排检码 - 特性及优点之四 4. 多音字兼容 在汉字里,有一些汉字会有不同的读法。例如在“行动”和“银行”二个名词中的“行”字,就有不同的读法。在中华排检码字库中,这一种汉字是完全可以兼容的。它们各有各的中华排检码代码。 列表9多音字兼容举例
中华排检码 - 特性及优点之五 5. 与国标码、大五码与统一码有一一对应 中华排检码的字库可以收集在国标码、大五码与统一码字库中的汉字。有一一对应这一点,便可以用中华排检码来做码与码之间的转换。 例如将已有的国标码档案,可利用电脑自动转换为中华排检码档案。
中华排检码 - 特性及优点之六 6. 汉字有序 中华排检码字库中的汉字是依照其汉字代码的顺序存档。这个顺序在各种汉字文字处理操作上是非常有用的。诸如在列表、电子数据报表、字典编纂、名册编制等等。
中华排检码 - 特性及优点之七 7.适合文本识读 (text-to-speech) 文本识读技术就是使用文字转语音系统技术。 这种技术能把文字转化为自然语音,语调。 应用举例:卫星定位系统,电话及电脑应用中,可以与使用人语音对话。
中华排检码 - 特性及优点之八 8. 加补新字方便 添加新字极端方便。随时可加添新字。 每一个新字都可以按次排序插入字库。使字库中的汉字经常保持字序。
中华排检码 - 特性及优点之九 9. 有效地避免乱码 中华排检码使用26个英文字母和10阿拉伯数字来拼出汉字代码,即使用现今通用亚司基码。 中华排检码码长不定,不用二字节或四字节定长内码方法。完全不同于国际码,大五码或统一码。 中华排检码的档案在电脑文字处理或网际传输操作下,可以有效避免乱码。中华排检码非常适合于电子计算机操作。
中华排检码 - 特性及优点之十 10. 内码即外码 中华排检码的内码和外码是一致的,所以中华排检码也可以用来做输入法。 更因为中华排检码的代码与汉字之间有单一性这一点可使中华排检码输入适合盲打。
中华排检码 - 特性及优点之十一 11. 现有输入法仍然可用于输入中华排检码 中华排检码与国标码、大五码与统一码的汉字均有一一对应。 无论使用者用何种输入法,当使用者输入汉字之后,文字处理系统可以存入与其汉字对应的中华排检码。
总 结 基于上述中华排检码的结构与多项优点,从全部优点整体来看,使用中华排检码在中文信息化发展过程中,有极大的优势。 我们相信中华排检码的确是可称为“近乎理想且实用”的汉字排检方法。 中华排检码有种种优点,也非常适用于电脑操作。这些可以让我们在此指出编制中文索引栏已不再是一件难事。在现有的条件下,利用中华排检码可以很方便地为已有电子本的中文书籍,加添索引栏。
致 谢 我们有一种共同地认识:就是就一般而言,研究工作的成果多半是会引用到一些先进专家过去的经验和成果。而所谓的新成果也仅只是一些旧成果的累积再加上一点点自己的新东西。 我们在此要向做汉字排检研究工作的先进专家们致谢。在过去几年里,有许多贝尔实验室的先后同事们不断地给我们鼓励和关注,我们特别在此致谢。
声 明 中华排检码已获得中国智慧产权局颁发智慧产权证书。产权证书号码:No. ZL200410039250.2,发证日期:2008-4-16。 中华排检码亦获得美国智慧产权局颁发智慧产权证书。产权证书号码:No.7,359,850-B2,发证日期:2008-4-15。 中华排检码汉字与汉字代码对照表已向中国国家版权局登记,且已获得颁发著作权登记证书。证书号码:No. 2004-L-02025, 发证日期:2004-12-12。 上列三项智慧产权及著作权,均为三位作者及在美国成立的中华排检码研发公司所拥有。
联络地址 宋安华 aasoong@yahoo.com 中华排检码研发公司CSC Research, LLC23 Seven Oaks CircleHolmdel, J 07733 USA www.CSCResearch.com 宋安华 博士 Andrew Soong , Ph.D.Andrew@CSCResearch.com 柴大定 博士 David Chai, Ph.D.David@CSCResearch.com林星雄 博士 Sing Lin, Ph.D.Sing@ CSCResearch.com
参考资料 四角号码 新华字典,2001年 ,大字本,商务印书馆,北京。内附四角号码检字表 四角号码及其用法 http://www.4jhm.com/tsghm/2007/0814/article_5.html