威瑞信致力于为利益相关者应对字符异体问题。注册者通常注册在他们自己的语言中有意义的域名,比如一个名称、单词或短语。然而,单个脚本或许可以在多种语言中使用。
因而,一个域名在另一种语言或文化背景下有可能会有不同的意义。异体现象主要分为四类:字符异体、正交异体、词位异体和上下文异体。威瑞信已确定处理字符异体是用户通过他们自己的语言浏览 Internet 所必须的。其他的异体要求较难的语言学上的判断,这并非提供一个健壮的 IDN 解决方案所必须的。
很多语言可能会有引起最终用户困惑的字符异体。例如,中文有两种书写形式:主要用于中国大陆的简体中文和主要用于台湾、香港和其他东南亚国家的繁体中文。这种书写形式共享许多字符;但简体中文中的简化字符可能与繁体中文中的复杂字符的意义相同。这些被称为字符异体的字符,具有相同的意思和发音,但是看起来却不一样。
技术社群中不同观点的领导者建议用不同的方法解决字符异体问题。每种方法都有积极面和消极面。但是,IDN 社区认为:由于语言一直在变化,字符异体问题可能从未被彻底解决。语言间新的字符异体将继续被引到语言中来。威瑞信已采用可参考语言表来解决字符异体问题的语言标记。
威瑞信已与感兴趣的利益相关者共同努力来解决字符异体问题,这些利益相关者包括中国网络信息中心 (CNNIC) (.cn)、台湾网络信息中心 (TWNIC) (.tw)、韩国国家网络发展局 (.kr)、日本注册服务 (JPRS) (.jp)、中文域名协调委员会 (CDNC) 和由 ICANN 成立的 IDN 执行委员会。
Verisign IDN 基础架构遵从 ICANN 注册管理机构执行委员会 (RIC) 的指导说明并要求每个 IDN 必须与使用“语言标记”的特定语言有联系。注册者在注册过程期间选择 IDN 语言。如果某个 IDN 结合多种语言,注册者必须选择最适合的语言。(今天不会提到所有语言标记;但是在注册过程中捕捉信息可允许将来采用语言表。下载威瑞信有效语言标记列表 (PDF)。
需要进行 IDN 注册时,对照包含字符列入表或字符异体映射表的语言列表检查语言标记。这些表格被应用到Unicode点,而这些统一码码位会组成注册来确定注册对特定语言来说是否有效。如果某种语言的注册失败,那么将仍然存在带有不同语言标记的字符集。
| 语言 | 码位 |
|---|---|
| 中文 | |
| 日语 | |
| 波兰语 | 仅拉丁字符 |
| 希腊语 | U+002D, U+0030 通过 U+0039, U+0370 通过 U+03FF |
| 俄语 | U+002D, U+0030 通过 U+0039, U+0400 通过 U+04FF, U+0500 通过 U+052F |
| 白俄罗斯语 | U+002D, U+0030 通过 U+0039, U+0400 通过 U+04FF, U+0500 通过 U+052F |
| 乌克兰语 | U+002D, U+0030 通过 U+0039, U+0400 通过 U+04FF, U+0500 通过 U+052F |
| 塞尔维亚语 | U+002D, U+0030 通过 U+0039, U+0400 通过 U+04FF, U+0500 通过 U+052F |
| 马其顿语 | U+002D, U+0030 通过 U+0039, U+0400 通过 U+04FF, U+0500 通过 U+052F |
| 保加利亚语 | U+002D, U+0030 通过 U+0039, U+0400 通过 U+04FF, U+0500 通过 U+052F |
威瑞信共享注册系统 (SRS) 允许注册人采用任何 Unicode 5.2 规定范围内并符合 IDNA2008 协议规范 (RFC 5891) 的脚本,通过注册商进行 IDN 注册。为了能够运用罕见脚本、音乐符号和其他特殊字符,威瑞信在我们的 IDN 码位策略中规定了具体许可、限制和禁用码位标准。