370 likes | 486 Views
多语种域名及中文域名技术 发展状况报告. 中国互联网络信息中心 毛伟 China Internet Network Information Center (CNNIC) cdnwg@cnnic.net.cn. 1. 提 纲. 多语种域名的需求 多语种域名相关组织介绍 多语种域名中的技术难点 中文域名面临的问题 多语种域名的解决方案 中文域名的解决方案 ICANN 相关工作介绍. 多语种域名的需求. 1. 网络主机名管理的三个阶段: (1) IP 地址(一维 ) 主机表(二维 ) 域名系统(树状分层结构 )
E N D
多语种域名及中文域名技术发展状况报告 中国互联网络信息中心 毛伟 China Internet Network Information Center (CNNIC) cdnwg@cnnic.net.cn 1
提 纲 • 多语种域名的需求 • 多语种域名相关组织介绍 • 多语种域名中的技术难点 • 中文域名面临的问题 • 多语种域名的解决方案 • 中文域名的解决方案 • ICANN相关工作介绍
多语种域名的需求 1. 网络主机名管理的三个阶段: (1) IP 地址(一维) 主机表(二维) 域名系统(树状分层结构) (2) 整个域名系统的高效性、健壮性、稳定性、可靠性证明了该项技术的巨大成功,并且它在网络中的基础性地位,确立了它在互联网中的重要性 2. 多语种域名的需求 (1) 一个十分“简单”的需求:在域名系统中支持多种语言、文字、字符。 (2) 起因:现行的域名系统只允许ASCII、数字和“-”连字符,而互联网已经发展成为全世界的共同财富,各国语言文字和字符不断涌现在网络中,逐渐一些重要的互联网络协议开始支持多语言文字。 一种声音由弱到强:从互联网的底层支持多语言,使互联网成为真正的、没有语言障碍的、全球共享的 Internet 3
多语种域名相关组织介绍 IETF IDN 工作组 1999.11 第46届 IETF 会议成立 IDN BOF,开始讨论多语种域名问题。 CDNC (Chinese Domain Name Consortium) CNNIC、TWNIC、HKNIC、MONIC于2000年5月20日在北京共同倡议成立了中文域名协调小组(简称CDNC) JET (Joint engineer team) JET多语种域名技术小组于2000 年7月在日本成立,成员单位有中国CNNIC、日本JPNIC、中国台湾TWNIC、韩国KRNIC。探讨解决汉字域名的相关问题。 ICANN (The Internet Corporation for Assigned Names and Numbers) 4
多语种域名中的技术难点(1) 1. 多语种域名体系与ASCII域名系统的兼容性问题 (1) 在探讨多语种域名的实现过程中,无法回避的一个重要问题是: 现行的、主机数量庞大的ASCII域名体系是整个互联网的基础,并且它本身稳定、高效、可靠地运行着。 (2) 对现行ASCII域名体系的任何损害,都可能导致多语种域名体系技术的彻底失败 2. 多语种域名的编码表示问题 (1) 全世界有几百种语言和文字,同一种语言文字可能有多种不同的编码方式 (如:汉字编码 GB2312 GB18030 GB13000) (2) Unicode 成为唯一的一种可供选择的全球统一编码方式,但它是为了解决文字显示问题而设计的,与多语种域名体系设计需求不完全统一 5
多语种域名中的技术难点(2) 3. 多语种域名的技术实现问题 (1) 域名系统包括两个分离的部分: resolver(解析器), server(DNS服务器), 它们分别位于用户操作系统和域名服务器上,问题的关键是:如何使它们能够识别多语种域名? (2) 由于域名系统在网络应用中的基础性地位,这决定了: 让resolver(解析器)能够识别多语种域名 意味着要求包括操作系统在内的所有网络应用程序必须升级; 让server(DNS服务器)能够识别多语种域名 意味着要求所有域名服务器都必须升级 4. 多语种域名的最终部署问题 域名系统在网络中的巨大成功,成为多语种域名问题的重要障碍。对现行域名系统的任何一点修改,对整个互联网络来说都是巨大的、难以忽视的,甚至是致命的。 6
中文域名面临的问题(1-1) 1. 中文域名繁简汉字等效问题 (1) 问题的规模 《简化字总表》(国家语委1986)中的繁简体汉字对有2237对,它覆盖了我们中文域名数据库中 83.6% 的域名。(如果包括1:N,N:1的约238个高频字以及部分未收入到总表中的字,它覆盖中文域名数据库中90%以上的域名) (2) 注册问题 – (用户权益保护问题) 例如: 清华大学({清,淸}{华,華}{学,學}) -> [清华大学] [清华大學] [清華大学] [清華大學] [淸华大学] [淸华大學] [淸華大学] [淸華大學] -> 中文用户必须注册八个中文域名,才能真正保护自己的域名。 这不仅仅是用户经济利益的问题,而且用户可能将面临无休止的域名争议和法律纠纷。 7
cn 国 國 华 華 华 華 学 學 学 學 学 學 学 學 中文域名面临的问题(1-2) (3) 两岸四地互联网在中文域名体系下的互通问题 如果不处理中文域名中的繁体汉字和简体汉字问题,中文域名互联网将被分割为两个无法通讯的部分:简体中文域名区域(中国大陆),繁体中文域名区域(台湾、香港、澳门及海外华人) (4) 中文域名授权问题 例如: “学.华.国.cn”, 它将产生 2*2*2=8 种变体中文域名。 如果不解决此问题,中文域名 的授权管理中将存在严重的同步问题, 势必导致那些基于域名层次结构的网络应用 归于失败。 (例如:学.华.国.cn) 解析结果 不确定,将导致域名服务的失败。 8
中文域名面临的问题(2) 2. 中文句号“。”与英文句号“.” 在中文域名中的等效问题 “。”等同于“.”成为中文域名的分割符号 9
提 纲 • 多语种域名的需求 • 多语种域名相关组织介绍 • 多语种域名中的技术难点 • 中文域名面临的问题 • 多语种域名的解决方案 • 中文域名的解决方案 • ICANN相关工作介绍
解决方案要求 • 不损害现行ASCII 域名体系、保障网络整体安全 • 多语种域名体系必须兼容现有的 ASCII 域名系统 11
多语种域名相关技术比较 • 1. EDNS • (1) 技术核心: 扩展DNS协议,以特定的数据包格式来区分ASCII域名和多语种域名 • (2) 障碍: 要求全面升级现行的域名服务器和网络应用程序 • 2. UTF-8 • (1) 技术核心: 建立新的多语种域名协议,以支持多语种域名的使用 • (2) 障碍: 要求全面升级现行的域名服务器和网络应用程序 • 3. ACE • (1) 技术核心: 不改变现有ASCII域名协议,将多语种域名用ASCII来表示,在互联网上传播 • (2) 障碍: 要求全面升级现行的网络应用程序 12
多语种域名技术解决方案 多语种域名解决方案 在第 51th IETF minneapolis 会议上,确立了将各国语言文字转换为 ASCII码的具体技术方案: • IDNA 为多语种域名标准协议的框架 • Nameprep 字符处理功能模块 • 选择 AMC-Z-ACE(Punycode) 编码算法 IDNA 本地化字符的 Unicode 编码 Nameprep ( 依NFKC规则,规范化字符 ) AMC-Z-ACE ( Puny code将Unicode字符转换成 ASCII字符 ) 13
Nameprep 字符处理功能模块 A <=> a Nameprep Mapping 字符映射 "a"+"^" ="â" 0000-002C; 002E-002F; 003A-0040; 005B-0060; 007B-007F; Normalization 字符归一化 prohibited 字符禁止 通过CDNC的共同努力, 其中规定禁止在多语种域名中出现“。”,使“。”映射为“.”成为可能 14
AMC-Z-ACE (Punycode)编码算法 “铝钙”的Unicode码点:{U+94DD, U+9499} AMC-Z-ACE (Punycode) 编码: “i74a5e” 加上多语种域名前缀后的ACE字符串:“zq--i74a5e” DNS Server 存储和用户解析请求的都是这种ACE编码表示的多语种域名。 (ASCII code encoding ) 15
draft-guonian-idn-ace-eval-cn-00.txt • 我们对IETF IDN工作组中提出的所有ACE编码算法进行了压缩效率的评估,发现AMC-ACE-Z (Punycode)算法对中文汉字域名的编码效率最高; • 日本/韩国的评估结果显示AMC-ACE-W / AME-ACE-M对本国文字的编码效率最高; • 经过我们的努力和协调,AMC-ACE-Z算法成为IDN 工作组的推荐ACE编码技术方案。 • [RACE], [BRACE], [LACE], [UTF6], [DUDE], [AMC-ACE-M], • [AltDUDE], [AMC-ACE-O], [AMC-ACE-R], [AMC-ACE-V], • [AMC-ACE-W], [AMC-ACE-Z], [MACE], [LDUDE]. 16
IDNA - 技术实现框架 加载Punycode 数据 应用程序-支持多语种域名 用户输入多语种域名 DNS server Application server 如: Email server Web server 将本地编码转换为 Unicode 编码 IDNA Punycode 编码 17 17
提 纲 • 多语种域名的需求 • 多语种域名相关组织介绍 • 多语种域名中的技术难点 • 中文域名面临的问题 • 多语种域名的解决方案 • 中文域名的解决方案 • ICANN相关工作介绍
中文域名技术解决方案 • 应用层解决方案 (client solution) • 技术实现框架 • 技术障碍和优势 • 域名服务器解决方案 (server solution) • 技术实现框架 • 技术障碍和优势 • 注册解决方案 (registration solution) • 技术实现框架 • 技术障碍和优势 • 示例 19
应用层解决方案 - 技术实现框架 draft-deng-idn-icdn-00.txt 应用程序-支持中文域名 加载Punycode 数据 用户输入中文域名 将汉字编码转换为 Unicode 编码 DNS server Application server 如: Email server Web server 中文域名繁简转换 IDNA Punycode 编码 20 20
应用层解决方案 - 技术障碍和优势 • 1. 技术障碍 • (1) 要求所有网络应用程序都进行升级以支持中文繁简处理和未来的多语种域名协议 • (2) 给操作系统开发商、中文应用软件开发商带来较重的负担 • 2. 技术优势 • 不会影响到整个互联网的基础结构;使ASCII域名到中文域名的过渡,不损害目前网络的稳定性、可靠性、安全性 21
域名服务器解决方案- 技术实现框架 加载Punycode 数据 应用程序-支持中文域名 用户输入中文域名 DNS server Application server 如: Email server Web server 中文域名 繁简转换 将汉字编码转换为 Unicode 编码 IDNA Punycode 编码 22 22
域名服务器解决方案 - 技术障碍和优势 1. 技术障碍 (1) 要求中文域名服务器进行升级以支持中文繁简处理和未来的多语种域名协议 (2)要求所有网络应用程序都进行升级以支持未来的多语种域名协议 (3)影响到基础网络的域名解析服务 2. 技术优势 中文域名的任何技术发展和升级都可以在服务器端实现,不影响用户操作系统 23
注册解决方案 • draft-jseng-idn-admin-00.txt 三列字表:有效字、建议字、变体字 注册记录将保留:全繁、全简、原型
注册解决方案- 技术实现框架 加载Punycode 数据 中文域名繁简冗余数据 应用程序-支持中文域名 用户输入中文域名 DNS server Application server 如: Email server Web server 将汉字编码转换为 Unicode 编码 IDNA Punycode 编码 25 25
注册解决方案 - 技术障碍和优势 1. 技术障碍 (1) 由于一个中文域名可能含有多个繁体或简体的中文域名,这导致中文域名出现严重的授权问题,使中文域名的树状体系结构变得“肥胖” (2) 使一些非常依赖中文域名层次结构的网络应用程序,最终归于失败 2. 技术优势 不会影响现行的域名服务 26
注册解决方案 – 示例 例如:用户注册中文域名: 清華大學 ({清,淸}{华,華}{学,學}) 产生的8个繁简变体域名 [清华大学] [清华大學] [清華大学] [清華大學] [淸华大学] [淸华大學] [淸華大学] [淸華大學] 为注册用户保留所有8个变体域名,同时将 简体 [清华大学] 繁体 [淸華大學] 加入中文域名解析数据库, 用户注册的原型 [清華大學] 并提供域名解析服务 上述三个变体中文域名将被同时授权给同一个用户,如果用户 要用配置自己的中文域名服务器、中文邮件服务器,他必须同时 配置三个一致的服务体系。 27
draft-ietf-idn-TSconv-00.txt 首次在IETF IDN工作组中,提出繁简体汉字转换问题,并就繁简体汉字转换问题的概念、范畴进行了具体阐述。 汉字繁简体汉字的转换,包括: 1 <=> 1 (钢<>鋼), 1 <=> n (图<=>圖図), 1 <=> n+1 (台<=>台臺颱) 等多种复杂情况 29
draft-ietf-idn-tsconv-02.txt中提出的技术实现方案 用户输入域名 对本地化字符进行 Unicode 编码 Nameprep (依NFKC规则,规范化字符) 依据《简化字总表》进行繁简汉字等效转换 AMC-Z-ACE (将Unicode字符转换成 ASCII字符) 发向域名服务器 30
draft-ietf-idn-tsconv-03.txt中提出的技术实现方案 用户输入域名 对本地化字符进行 Unicode 编码 依据《简化字总表》进行繁简汉字等效转换 Nameprep (依NFKC规则,规范化字符) Validation 校验 AMC-Z-ACE (将Unicode字符转换成 ASCII字符) 31
CDNC和CNNIC在多语种域名标准方面所作的工作 • 先后向 IETF 提交 7 项国际域名标准方面的技术建议: • draft-guonian-idn-ace-eval-cn-00.txt (50th IETF 会议) • draft-ietf-idn-TSconv-00.txt (50th IETF会议,CDNC合作提出) • draft-deng-idn-icdn-00.txt • draft-deng-idn-tsmodule-00.txt • draft-ietf-idn-tsconv-02.txt (51th IETF会议,CDNC合作提出) • draft-ietf-idn-tsconv-03.txt (52th IETF会议,CDNC合作提出) • draft-jseng-idn-admin-00.txt (JET合作提出) 32
提 纲 • 多语种域名的需求 • 多语种域名相关组织介绍 • 多语种域名中的技术难点 • 中文域名面临的问题 • 多语种域名的解决方案 • 中文域名的解决方案 • ICANN相关工作介绍
ICANN IDN工作的起源 • 2000年1月18日,CNNIC推出中文域名试验系统。 • 2000年8月22日 Verisign公司宣布引入多语种域名试验平台,宣布用户可以.com, .net, .org等顶级域名下面使用其他语言字符注册域名。 • 2000年8月25日,ICANN针对 Verisign 的多语种域名试验计划发表声明。 • 2000年10月22日,CDNC关于Verisign提供中文域名服务发表声明。 • 2000年11月7日,信息产业部发布《关于互联网中文域名管理的通告》 • 2001年ICANN成立IDN委员会
CNNIC给ICANN关于IDN的管理建议 • 发展多语种域名不仅应该保证当前域名系统的稳定和兼容性,还应当保证各种语言使用者的利益,尊重各地的政策机制,包括政治的、经济的、法律的和文化的等等; • IDN不仅仅是一个技术问题,更多是一个管理问题。基于引入IDN的基本目的是服务于非英语使用者的需要,因此IDN的管理不应当完全控制在商业利益手中。在制定IDN的管理政策过程中,应该尊重相应语言使用者的意见; • 由相关语言使用者组成的合作组织应当在相应的IDN管理中发挥主要作用。
谢 谢 中国互联网络信息中心 China Internet Network Information Center (CNNIC) cdnwg@cnnic.net.cn 36