渠道资源

国际化域名

发挥本地语言 .com 和 .net 的作用

开启一个充满机遇的世界,获得新客户、新注册和扩展 Web 服务。

威瑞信国际化域名 (IDN) 可帮助企业以本地语言字符表示 .com 和 .net。这使得与客户的联系更加友好,更加有意义。

IDN 的故事

在 1996 年,约 2/3 的互联网用户位于美国,所以英语或拉丁语系(又被称作 ASCII)字符是 Web 导航的基础。但自从那时起,根据 Comscore 2012 年全球和地方互联网现状的报告,使用非英语语言的互联网用户人数已增长至 87%,其中亚太地区的互联网用户已占全球用户的 41.1%。

起初,域名仅支持 ASCII 字符(A 到 Z、0 到 9 和连字符 "-"),这意味着需要附加符号的非英语单词(如重音符号、分音符、短音符和点等)和其他基于非拉丁语的字符(如韩语、阿拉伯语、泰语、简体中文等)不能用于互联网导航。

随着越来越多的互联网活动在西方国家之外发生,引入非基于拉丁语的字符对于注册商及其客户来说成为亟待解决的问题,这为寻求拓展业务的地区注册商和全球注册商都带来新的市场机遇。

2000 年,威瑞信为 .com 和 .net 引入了二级(点的左边)国际化域名 (IDN)。这意味着可以创建、注册和搜索 스타벅.com 等域名,从而使互联网访问更容易,与上百万用户更息息相关。

2012 年,威瑞信申请运营 .com 的九个音译和 .net 三个音译(点的右边)的注册,作为 ICANN 的新通用顶级域 (gTLD),从而可以用本地语言字符为企业提供更全面的域名。

威瑞信为这些新 IDN gTLD 提出的方法将确保普及终端用户体验,保护客户和企业,使他们不必注册我们的 TLD 中纯粹的防御性域名。实际上,威瑞信提出的方法意味着在我们的 IDN.IDN、IDN.com 或 IDN.net 二级域名的注册者将具有可在任何顶级 IDN、.com 或 .net 中注册与上述二级域相同域名的独占权利(适用时可行使,并非强制)。

为了阐明我们的运作方法,我们提供了以下两个使用案例:

使用案例 1:Bob Smith 已经注册了一个 IDN.net 二级域名。除对 Bob Smith 外,该二级域名在所有新的 .net TLD 中将不可用。Bob Smith 可以选择不以任何新的 .net TLD 音译注册该二级域名。

使用案例 2:John Doe 没有注册 IDN.com 二级域名。John Doe 在 .com 泰语音译中注册了一个二级域名,但没在其他 TLD 中注册。该二级域名将在所有其他 .com IDN TLD 音译和 .com 注册表中不可用,直至 John Doe(且仅限 John Doe)在其他 .com IDN TLD 或 .com 注册表中注册该域名。

.com 和 .net 的本地语言版本

在新通用顶级域 (gTLD) 计划中,威瑞信为 .com 申请了九个音译,为 .net 申请了三个,从而可以用本地语言字符为企业提供更全面的域名。

.com
.net
.com

西里尔语

.net

梵文

.com

希伯来语

.net

简体中文

.com

阿拉伯语

.net

朝鲜文

.com

梵文

.com

泰语

.com

片假名

.com

简体中文

.com

繁体中文

.com

朝鲜文

IDN 注册过程


注册者向支持 IDN 的注册商请求 IDN。注册商使用 ASCII 兼容编码 (ACE) 将本地语言字符转换为受支持字母的序列。注册商将 ACE 字串提交到 Verisign® 共享注册系统 (SRS),并在此核实字串。将 IDN 添加到 .com 和 .net TLD 区域文件,并在互联网上传播。


IDN 解析过程

用户使用本地化脚本将 IDN 输入 Web 浏览器或跟随链接时,启用 IDN 的应用程序将字符译成 DNS 可理解的 ACE 字串。DNS 处理请求并将信息返回应用程序。虽然处理听起来很简单,但是还需要对支持不同 语言和脚本 的启用 IDN 的应用程序和 DNS 进行重大研究和开发。

IETF 标准



互联网工程任务组 (IETF) 致力于制定在域名系统 (DNS) 中使用非 ASCII 字符的标准。

DNS 仅可识别 ASCII 字符 A 至 Z、0 至 9 和 "-"。这限制了可用于创建域名的字符数量,即使用统一码中可识别的 96,000 多个字符中的 37 个字符创建域名。若要从统一码字符范围内创建域名,必须使用和规范将统一码码位映射到 ASCII 代表的字符编码方案。

IETF 公布了与国际化域名 (IDN) 相关的标准:编码方案、框架、协议、Unicode 和右至左脚本。

编码方案

IDN 的编码方案使用 Punycode,这是一种兼容 ASCII 的编码 (ACE) 可将本地语言字符译成 ASCII 字符,从而使 DNS 能够准确地回答对地址记录的请求。IETF 考虑了压缩和实施间的平衡,决定选择 Punycode 作为 ACE 标准。Punycode 允许出现最大数目的字符(码位)且可轻易部署。

框架 [RFC 5890]

RFC 是共同描述“应用程序中的国际化域名”(IDNA) 的协议和使用文本的文集的其中之一,“应用程序中的国际化域名”的修订工作大致于 2008 年完成,在该系列内及其他系列中被称为 "IDNA2008"。该系列替代之前的 IDNA [RFC 3490] [RFC 3491] 版本。为方便起见,该版本的 IDNA 被称为 "IDNA2003"。新版本继续沿用之前版本中的 Punycode 算法 [RFC3492] 和 ACE(ASCII 兼容编码)前缀。

协议 [RFC 5891]

该 RFC 描述了核心 IDNA2008 协议及其操作情况。其与下述双向 (Bidi) 文件结合,明确更新和替代 [RFC 3490]。

Unicode [RFC 5892]

该 RFC 规定了决定(单独考虑或在上下文中考虑)某一码位是否将被纳入 IDN 的规则。它是 IDNA2008 规范的组成部分。

右至左脚本 [RFC 5893]

国际化域名 (IDN) 内右至左脚本的使用面临着一些挑战。该 RFC 根据在一些脚本上遇到的问题和 2003 IDNA 双向标准的缺点为应用程序的国际化域名 (IDNA) 标签提供了新的双向规则。

基本原理 [RFC 5894]

该 RFC 阐述了需要新 RFC 以解决之前版本的 IDNA 中所出现的问题的背景、解释和基本原理。该 RFC 还将对更新 IDN 内所支持 Unicode 版本的需求进行讨论。

发布的 RFC

这些标准已发布,现在可以使用:

威瑞信致力于遵从以下 IETF 标准并支持该新技术的快速发展。

脚本和语言



国际化域名 (IDN) 是通过任意字符集或在 Unicode 中定义的脚本注册的二级或三级域名或网址。

要想弄清威瑞信 IDN 如何通过单个共享注册系统 (SRS) 支持数百种本地语言的域名注册,您需要理解在书面语言中使用的字符和脚本是如何转换成计算机语言的。

脚本、字符和语言之间的关系

脚本 拉丁语 阿拉伯语 汉语 希腊语
字符 L س 漢字 Ω
语言 英语 波斯语 中文 希腊语

脚本

脚本是语言中用来表示文本信息的符号集。脚本的例子:拉丁语、阿拉伯语、汉语、希腊语。

字符

字符是任意脚本因而也是任意书面语言的基本构成单元。它具有最基本的意义,若进一步分割字符,其将不具有意义。

书面语言

书面语言使用一个或多个脚本中的字符以传达意义。语言的例子:英语、波斯语、汉语、希腊语。

将语言转化为计算机符号

不同的脚本使用不同的键盘或软键盘作为计算机输入设备。计算机操作系统的输入法编辑器 (IME) 有利于不同脚本的输入。IDN 是一种类似的转换方式,它使人们可以通过本地语言脚本导航 Web、发送和接收电子邮件、传输文件以及进行其他与域名相关的操作。

Unicode

计算机通过编码字符以理解它们。对字符集内的每个字符都分配唯一的数字。比如,在 ASCII 码字符集中,大写字母 "A" 分配的数字是 65。大多数域名是以 ASCII 字符注册的(从 A 到 Z、从 0 到 9 和连字符 "-")。但是,非英语单词需要附加符号,如西班牙语和法语,而且 ASCII 字符不提供使用非拉丁脚本的语言,如日本汉字和阿拉伯语。Unicode 是一种通用编码字符集,它涵盖多达 350 种不同的本地语言。因此,IDN 使用 Unicode。

语言标记

威瑞信 IDN 基础架构遵从 ICANN 注册管理机构执行委员会 (RIC) 的指导说明并要求每个 IDN 必须与使用“语言标记”的特定语言有联系。注册者在注册过程中选择 IDN 语言标记。如果某个 IDN 结合多种语言,注册者必须选择最适合的语言。今天不会提到所有语言标记;但是在注册过程中捕捉信息有助于将来采用语言表。下载威瑞信有效语言标记列表 (PDF)

语言表

需要进行 IDN 注册时,对照包含字符列入表或字符异体映射表的语言列表检查语言标记。这些表格适用于可建立注册并确定注册对特定语言是否有效的 Unicode 码。如果某种语言的注册失败,那么带有不同语言标记的字符集仍然可用。

字符异体


威瑞信致力于为利益相关者应对字符异体问题。注册者通常注册在他们自己的语言中有意义的域名,比如一个名称、单词或短语。然而,单个脚本或许可以在多种语言中使用。

因而,一个域名在另一种语言或文化背景下有可能会有不同的意义。异体现象主要分为四类:字符异体、正交异体、词位异体和上下文异体。威瑞信已确定处理字符异体是用户通过他们自己的语言浏览互联网所必须的。其他的异体要求较难的语言学上的判断,这并非提供一个稳健的 IDN 解决方案所必须的。

中文字符异体

很多语言可能会有引起最终用户困惑的字符异体。例如,中文有两种书写形式:主要用于中国大陆的简体中文和主要用于台湾、香港和其他东南亚国家的繁体中文。这两种书写形式共享许多字符;但简体中文中的简化字符可能与繁体中文中的复杂字符的意义相同。这些被称为字符异体的字符,具有相同的意义和发音,但是看起来却不一样。

字符异体解决方案

技术社群中不同观点的领导者建议用不同的方法解决字符异体问题。每种方法都有优点和缺点。但是,IDN 社区认为:由于语言一直在变化,字符异体问题可能从未被彻底解决。语言间新的字符异体将继续被引到语言中来。威瑞信已采用可参考语言表来解决字符异体问题的语言标记。

威瑞信已与感兴趣的利益相关者共同努力来解决字符异体问题,这些利益相关者包括中国网络信息中心 (CNNIC) (.cn)、台湾网络信息中心 (TWNIC) (.tw)、韩国国家网络发展局 (.kr)、日本注册服务 (JPRS) (.jp)、中文域名协调委员会 (CDNC) 和由 ICANN 成立的 IDN 执行委员会。

政策

威瑞信已制定了一套 IDN 注册政策,规定了允许和禁用的码位。

通过威瑞信共享注册系统 (SRS),可以创建包含 Unicode 支持的非 ASCII 脚本的国际化域名 (IDN)。

注册规则

了解贯彻该政策的五种验证规则。


查看规则

附加逻辑

验证 IDN 后,威瑞信根据注册的语言标记执行一些其他的逻辑。


查看附加逻辑