VARIANTES DE CARACTÈRES

Verisign s'est employée à résoudre le problème des variantes de caractères avec les parties prenantes concernées. En règle générale, les bureaux d'enregistrement enregistrent des noms de domaines ayant une signification dans leur propre langue, comme un nom, un mot ou une phrase. Cependant, plusieurs langues peuvent partager les mêmes caractères.


Par conséquent, un nom de domaine peut avoir différentes significations suivant le contexte dans d'autres langues ou cultures. Le phénomène de variante a été classifié en quatre catégories : variantes de caractère, orthographiques, lexémiques et contextuelles. Pour Verisign, il est essentiel de tenir compte des variantes de caractères afin de permettre aux utilisateurs de naviguer sur Internet dans leur propre langue. Les autres variantes nécessitent des jugements linguistiques complexes qui ne sont pas essentiels à l'apport d'une solution d'IDN solide.

VARIANTES DE CARACTÈRES CHINOIS

De nombreuses langues présentent des variantes de caractères qui peuvent potentiellement entraîner la confusion de l'utilisateur final. Par exemple, la langue chinoise présente deux formes écrites : le chinois simplifié, principalement utilisé en Chine continentale, et le chinois traditionnel, principalement utilisé à Taiwan, Hong Kong et dans d'autres pays d'Asie du Sud-Est. Ces deux formes écrites partagent de nombreux caractères. Toutefois, les caractères simplifiés du chinois simplifié peuvent avoir la même signification que certains caractères complexes du chinois traditionnel. Ces caractères, appelés variantes de caractères, ont la même signification, la même prononciation mais ne se ressemblent pas.

SOLUTION AUX VARIANTES DE CARACTÈRES

Différents prescripteurs de la communauté technique ont proposé diverses approches pour résoudre le problème des variantes de caractères. Chaque approche présente à la fois des avantages et des inconvénients. Toutefois, la communauté des IDN s'accorde à dire que le problème des variantes de caractères ne pourra jamais être résolu complètement car les langues sont en perpétuelle mutation. De nouvelles variantes de caractères entre les langues continueront toujours d'être introduites. Verisign a adopté les balises de langue qui référencent des tables linguistiques afin de résoudre le problème des variantes de caractères.

Verisign a travaillé à la résolution de ce problème avec les organismes intéressés, dont le China Network Information Center (CNNIC) (.cn), le Taiwan Network Information Center (TWNIC) (.tw), National Internet Development Agency of Korea (.kr), Japan Registry Service (JPRS) (.jp), Chinese Domain Name Consortium (CDNC) et le Comité d'implémentation des IDN établi par l'ICANN.

BALISES DE LANGUE

L'infrastructure IDN de Verisign se conforme aux directives du Comité d'implémentation de registre (RIC) de l'ICANN et exige que chaque IDN soit associé à une langue spécifique à l'aide d'une "balise de langue". L'inscrivant sélectionne la balise de langue IDN lors du processus d'enregistrement. Si un IDN comprend plusieurs langues, l'inscrivant doit sélectionner la langue qui convient le mieux. (Toutes les balises de langue ne sont pas référencées aujourd'hui ; toutefois, la saisie des informations lors du processus d'enregistrement permet l'adoption ultérieure des tables linguistiques.) Téléchargez la liste des Balises de langue valides de Verisign (PDF).

TABLES LINGUISTIQUES

Lorsqu'un enregistrement d'IDN est demandé, la balise de langue est vérifiée par rapport à une liste de langues qui possèdent des tables d'inclusion de caractères ou des tables de mappage de variantes de caractères. Ces tables sont appliquées aux points de code Unicode qui constituent un enregistrement afin de déterminer si l'enregistrement est valide pour une langue spécifique. Dans le cas où l'enregistrement échoue pour une langue donnée, le jeu de caractères peut éventuellement être disponible avec une balise de langue différente.

Tables linguistiques déployées dans la solution aux variantes de caractères de Verisign

LANGUEPoints de code
Chinois
Japonais
PolonaisCaractères latins uniquement
GrecU+002D, U+0030 via U+0039, U+0370 via U+03FF
RusseU+002D, U+0030 via U+0039, U+0400 via U+04FF, U+0500 via U+052F
BiélorusseU+002D, U+0030 via U+0039, U+0400 via U+04FF, U+0500 via U+052F
UkrainienU+002D, U+0030 via U+0039, U+0400 via U+04FF, U+0500 via U+052F
SerbeU+002D, U+0030 via U+0039, U+0400 via U+04FF, U+0500 via U+052F
MacédonienU+002D, U+0030 via U+0039, U+0400 via U+04FF, U+0500 via U+052F
BulgareU+002D, U+0030 via U+0039, U+0400 via U+04FF, U+0500 via U+052F

POINTS DE CODE IDN

Le système d'enregistrement partagé (SRS) Verisign permet à un inscrivant d'enregistrer des IDN via un bureau d'enregistrement à l'aide d'un système de caractères identifié dans Unicode 5.2 et ayant suivi la spécification du protocole IDNA2008 (RFC 5891). Pour la prise en charge des systèmes de caractères rares, des notations musicales et autres caractères spéciaux, Verisign a spécifié des points de code dont l'utilisation est permise, restreinte ou interdite dans sa Politique relative aux points de code IDN.