威瑞信共享注册系统 (SRS) 支持包含各种 Unicode 脚本的 IDN(国际化域名)。
威瑞信已制定了一套 IDN 注册政策,规定了允许和禁用的码位。根据以下 5 种验证规则贯彻该政策。IDN 遵循这 5 种规则,被视为有效注册。
IDNA2008 规范定义 IDN 注册中允许/禁用 Unicode 点的规则和算法。威瑞信完全符合构成 IDNA2008 标准的所有 RFC 文件。请回顾我们的 IETF 标准。
所有 IDN 注册要求提供一个 3 个字母的语言标记。例如,CHI 用于中文。如果下表含有与注册相关的语言标记,则威瑞信具有该语言的已包含字符列表。已包含字符列表必须包含所有要求的 IDN。如果 IDN 中的码位不是该语言中的有效字符,则注册将被拒绝。
下表列出了具有关联已包含字符列表的语言。
| 语言标记 | 语言 |
|---|---|
| AZE | 阿塞拜疆语 |
| BEL | 白俄罗斯语 |
| BUL | 保加利亚语 |
| CHI | 中文 |
| GRE | 希腊语 |
| JPN | 日语 |
| KOR | 韩语 |
| KUR | 库尔德语 |
| MAC | 马其顿语 |
| MOL | 摩尔达维亚语 |
| POL | 波兰语 |
| RUS | 俄语 |
| SCC | 塞尔维亚语 |
| SCR | 克罗地亚语 |
| SRP | 塞尔维亚语 |
| UKR | 乌克兰语 |
如果上表中未显示 IDN 注册指定的语言标记,因而没有已包含字符列表,则威瑞信将应用交替限制以防止不同脚本在一个域内混合使用。
Unicode 标准通过为每个码位准确分配一个 Unicode 脚本值定义一组 Unicode 脚本。根据规则,威瑞信注册拒绝不同 Unicode 脚本的码位混合使用。也就是说,如果 IDN 包含两个或多个 Unicode 脚本的码位,则 IDN 注册将被拒绝。例如,拉丁文脚本中的字符不得与任何西里尔字符在同一个 IDN 中使用。IDN 内的所有码位必须源自同一 Unicode 脚本。因此,能够防止混淆的码位出现在同一 IDN 中。
此外,此规则仅适用于没有严格定义的已包含字符表的语言。例如,代表法语的 FRE 语言标记没有严格的已包含字符列表,因此混合规则对其适用。法语域内的所有码位必须源自一个脚本。但该脚本可以是有效的 Unicode 定义脚本中的任一脚本。
下表列出了 Unicode 脚本以及允许码位的相关列表。
| Unicode 脚本和相关码位 | |||
|---|---|---|---|
| 阿拉伯语 | 格鲁吉亚语 | 拉丁语 | 拉朗文 |
| 亚美尼亚语 | 格拉哥里字母 | 列普查语 | 古北欧文字 |
| 阿维斯陀语 | 希腊语 | 林布文 | 撒马利亚文 |
| 巴厘语 | 古吉拉特语 | 傈僳族语言 | 索拉什拉特文 |
| 巴姆穆语 | 果鲁穆齐语 | 利西亚文 | 僧伽罗语 |
| 巴塔克语 | 汉语 | 吕底亚文 | 巽他语 |
| 孟加拉语 | 朝鲜文 | 马拉雅拉姆语 | 塞洛提纳格瑞文 |
| 注音 | 哈努诺文 | 曼底克文 | 叙利亚语 |
| 婆罗米文 | 希伯来语 | 曼尼普尔文 | 他加禄语 |
| 布吉语 | 平假名 | 蒙古语 | 塔班瓦语 |
| 布锡语 | 皇室亚拉姆文 | 缅甸 | 德宏傣文 |
| 加拿大土著语 | 巴拉维碑铭体 | 西双版纳新傣文 | 西双版纳老傣文 |
| 卡里亚语 | 帕提亚碑铭体 | Nko | 越南傣文 |
| 占语 | 爪哇语 | 欧甘文 | 泰米尔语 |
| 切罗基语 | 凯提体文 | 桑塔尔文 | 泰卢固语 |
| 科普特语 | 埃纳德语 | 古波斯文 | 塔安那文 |
| 苏美尔 | 片假名 | 古南阿拉伯语 | 泰语 |
| 西里尔语 | 克耶黎语 | 古突厥语 | 藏语 |
| 梵文 | 卡罗须提文 | 奥里雅语 | 提非纳字母 |
| 埃及象形文字 | 高棉语 | 八思巴文 | 瓦依语 |
| 埃塞俄比亚语 | 老挝 | 腓尼基文 | 彝语 |
关于允许用于 IDN 注册的所有 Unicode 点的完整列表,请单击此处。
Verisign SRS 还遵循 ICANN 的实施国际化域名指导说明,其中第 5 节概述了 IETF 标准允许使用而 IDN 注册禁用的字符。出于此原因,Verisign SRS 禁止在任何注册中使用这些 Unicode 点。这是完整的 ICANN 限制 Unicode 点列表。
实际上最新定义与 IDNA 标准的之前版本不后向兼容的字符有两 (2) 种。拉丁文清音 S 和希腊文词尾 Sigma 之前被映射为替换字符。例如,符合旧版标准的客户和注册机构将需要将拉丁文清音 S 映射在两个小写拉丁字母 S 字符中。该映射操作不可撤销。最新版本的 IDNA 标准不适用于该映射。因此,尽管拉丁文清音 S 之前曾被禁用(被映射到其他字符中),但最新版本的标准允许注册人自行决定是否接受该字符。
由于这些变更并不后向兼容,威瑞信已被选择禁用这两 (2) 种字符,直到找到并传达简便合理的方法为止。
| 字符 | Unicode 点 | 字形 |
|---|---|---|
| 拉丁文小写字母清音 S | U+00DF | ß |
| 希腊文小写字母词尾 Sigma | U+03C2 | ς |