Ressources pour les partenaires

Noms de domaine internationalisés

Prenez la mesure de la puissance de .com et .net dans les langues locales

Ouvrez un univers d'opportunité avec de nouveaux clients, de nouvelles inscriptions et des services Web en expansion.

Les noms de domaines internationalisés (IDN) Verisign permettent aux entreprises de dire .com et .net en utilisant les caractères de la langue locale. C'est un moyen plus convivial et plus pertinent pour toucher les clients.

Historique des IDN

Près des deux-tiers de tous les utilisateurs étaient situés aux États-Unis en 1996, ce qui explique pourquoi les caractères ASCII (basés sur l'anglais, soit les lettres latines) ont formé la base de la navigation sur le web. Toutefois, depuis lors et selon le rapport Comscore sur l'État d'internet à l'échelle mondiale et locale de 2012, la population non anglophone sur internet est passée à 87 %, la région Asie-Pacifique représentant 41,1 % des utilisateurs au niveau mondial.

À l'origine, le domaine n'était compatible qu'avec les caractères ASCII (A à Z, 0 à 9, et le tiret « - »). En d'autres termes, les mots non anglais nécessitant des diacritiques (accents, tréma, brève, points, etc.) et les autres langues basées sur des caractères non latins (hangul, arabe, thaï, chinois simplifié, etc.) ne pouvaient pas être utilisés pour naviguer sur internet.

Une portion croissante de l'activité sur internet intervenant désormais en dehors des pays occidentaux, l'introduction des caractères non latins présente une avancée à point nommé pour les bureaux d'enregistrement et leurs clients, offrant de nouvelles opportunités commerciales aux bureaux d'enregistrement régionaux et internationaux pour développer leur activité.

En 2000, Verisign a introduit les noms de domaine internationalisés (IDN) de deuxième niveau (à gauche du point) pour .com et .net. Ainsi, des noms de domaine comme 스타벅.com pouvaient être créés, enregistrés et recherchés pour offrir un accès plus aisé et plus pertinent à internet pour des millions d'utilisateurs.

En 2012, Verisign a posé sa candidature pour exploiter les registres de neuf translittérations de .com et trois de .net (à droite du point) dans le cadre du nouveau domaine de premier niveau générique de l'ICANN (gTLD), qui permettra à Verisign d'offrir aux entreprises des noms de domaine complets dans les caractères de la langue locale.

L'approche envisagée par Verisign pour ces nouveaux gTLD IDN contribuera à assurer une utilisation omniprésente pour l'utilisateur et à dispenser les entreprises et les consommateurs d'enregistrer des noms de domaine purement défensifs dans les TLD. En pratique, l'approche proposée par Verisign signifie qu'un inscrivant souhaitant enregistrer un nom de domaine de second niveau dans notre IDN.IDN, IDN.com ou IDN.net disposera du droit exclusif (sous réserve des mécanismes de protection de droits applicables), mais sans obligation d'enregistrer le même nom de domaine de deuxième niveau sur les IDN de premier niveau, .com ou .net selon le cas.

Nous avons identifié deux cas d'emploi dans le but d'illustrer notre approche :

Cas d'emploi n° 1 : Robert Dupont possède déjà un enregistrement pour un nom de domaine IDN.net de deuxième niveau. Ce nom de domaine de deuxième niveau ne sera disponible dans aucun des nouveaux TLD .net sauf pour Robert Dupont. Robert Dupont peut choisir de n'enregistrer ce nom de domaine de deuxième niveau dans aucune des nouvelles translittérations des TLD .net.

Cas d'emploi n° 2 : Jean Durand ne possède pas d'enregistrement pour un nom de domaine IDN.net de deuxième niveau. Jean Durand enregistre un nom de domaine de deuxième niveau dans notre translittération thaï de .com mais pas dans d'autres TLD. Ce nom de domaine de deuxième niveau ne sera disponible dans aucune autre translittération des TLD IDN .com et dans le registre .com jusqu'à ce que Jean Durand (et uniquement lui) l'enregistre dans un autre TLD IDN .com ou dans le registre .com.

Versions en langue locale de .com et .net

Verisign a déposé une demande pour neuf translittérations de .com et trois pour .net dans le cadre du programme de nouveaux domaines de premier niveau génériques (gTLD) pour offrir aux entreprises des noms de domaine .com et .net complets dans les caractères de langue locale.

.com
.net
.com

Cyrillique

.net

Devanagari

.com

Hébreu

.net

Chinois simplifié

.com

Arabe

.net

Hangûl

.com

Devanagari

.com

Thaï

.com

Katakana

.com

Chinois simplifié

.com

Hangûl

Processus d'enregistrement des IDN


Un inscrivant demande un IDN à un bureau d'enregistrement prenant en charge les IDN. Le bureau d'enregistrement convertit les caractères de la langue locale en une séquence de lettres prises en charge à l'aide d'un codage compatible ASCII (ACE). Le bureau d'enregistrement soumet la chaîne au format ACE au système d'enregistrement partagé (SRS) Verisign® où elle est ensuite validée. L'IDN est ajouté aux fichiers de zone TLD .com et .net et propagé sur internet.


Processus de résolution des IDN

Lorsqu'un utilisateur saisit un IDN à l'aide des caractères de la langue locale dans un navigateur web ou suit un lien, les applications prenant en charge les IDN encodent les caractères dans une chaîne au format ACE que comprend le DNS. Le DNS traite la demande et renvoie les informations à l'application. Même si le processus semble simple, les applications compatibles avec les IDN et la prise en charge par DNS des différentes langues et des différents systèmes d'écriture ont exigé d'importantes recherches.

Normes IETF



L'IETF (internet Engineering Task Force) a supervisé la tâche de création des normes d'utilisation des caractères non ASCII dans le système de noms de domaine (DNS).

Le DNS reconnaît uniquement les caractères ASCII, A-Z, 0-9 et « - ». Cela limite à 37 le nombre de caractères qu'il est possible d'utiliser pour créer des noms de domaines, sur les 96 000 caractères et plus identifiés au sein d'Unicode. Pour créer des noms de domaines à l'aide des nombreux caractères Unicode, un schéma de codage de caractères qui mappe les points de code Unicode de façon unique vers une représentation ASCII doit être utilisé et standardisé.

L'IETF a publié ces normes en relation avec les noms de domaine internationalisés (IDN) : schémas de codage, cadre protocole Unicode et écritures de droite à gauche.

Schéma de codage

Le schéma de codage pour les IDN utilise le Punycode, un ACE (codage compatible ASCII) qui code les caractères de langue locale en caractères ASCII de sorte que le DNS puisse répondre de façon adéquate à une requête d'enregistrement d'adresse. Pour sélectionner le Punycode en tant que norme ACE, l'IETF a tenu compte de l'équilibre entre compression et mise en œuvre. Le Punycode permet la représentation du plus grand nombre de caractères (points de code) et son déploiement ne présente aucune difficulté.

Schéma cadre [RFC 5890]

Ce RFC fait partie d'une série qui décrit le protocole et le contexte d'utilisation pour une révision des normes IDNA (Internationalized Domain Names in Applications) et qui a été largement complétée en 2008, appelée « IDNA2008 » dans la série et par ailleurs. Cette série remplace une version précédente des normes IDNA [RFC 3490] [RFC 3491]. Par souci de clarté, cette version des normes IDNA est intitulée « IDNA2003 ». La dernière version utilise toujours l'algorithme Punycode [RFC3492] et le préfixe ACE (encodage compatible ASCII) de la version précédente.

Protocole [RFC 5891]

Ce RFC décrit le protocole central IDNA2008 et ses opérations. Associé au document « Bidi » (bi-directionnel) décrit ci-dessous, il met à jour et remplace de façon explicite le [RFC 3490].

Unicode [RFC 5892]

Ce RFC définit les règles permettant de décider si un point de code, considéré seul ou dans son contexte, peut être inclus dans un nom de domaine internationalisé (IDN). Il fait partie de la spécification de la norme IDNA2008.

Écritures de droite à gauche [RFC 5893]

L'utilisation d'écritures de droite à gauche dans les IDN a posé plusieurs problèmes. Ce RFC fournit de nouvelles règles Bidi pour les libellés des IDNA (Internationalized Domain Names for Applications), basées sur les problèmes rencontrés avec certaines écritures et certains défauts des critères Bidi des IDNA 2003.

Logique [RFC 5894]

Ce RFC fournit des informations, des explications et les raisons de la nécessité de créer de nouveaux RFC pour résoudre les problèmes posés par la ou les versions précédentes des IDNA. Ce RFC aborde aussi la nécessité de mettre à jour la version d'Unicode prise en charge dans les IDN.

RFCS publiées

Ces normes ont été publiées et sont désormais disponibles :

Verisign s'engage à respecter les normes IETF et à soutenir le déploiement rapide de cette nouvelle technologie.

Scripts + Langues



Les noms de domaines internationalisés (IDN) sont des noms de domaines de deuxième ou troisième niveau ou adresses Web enregistrés dans un jeu de caractères ou une écriture quelconque, défini dans Unicode.

Il convient de savoir comment les caractères et les écritures sont utilisés en langue écrite et traduits pour l'informatique pour comprendre comment les IDN Verisign prennent en charge l'enregistrement de noms de domaines dans des centaines de langues avec un système d'enregistrement partagé (SRS) unique.

Relations entre écriture, caractères et langue

ÉCRITURE Latin Arabe Han Grec
CARACTÈRE L س 漢字 Ω
Langue Anglais Farsi Chinois Grec

Écriture

Une écriture est un ensemble de symboles utilisés pour représenter des informations textuelles dans une langue. Exemples d'écritures : latin, arabe, hân, grec.

Caractère

Un caractère est l'élément constitutif de base de toute écriture et donc de tout langage écrit. Il est porteur de sens au niveau fondamental ; il n'est pas possible de diviser davantage un caractère sans le dénuer de sens.

Langue écrite

Une langue écrite utilise des caractères provenant d'une ou plusieurs écritures afin de communiquer du sens. Exemples de langues : anglais, farsi, chinois, grec.

Adapter les langues aux ordinateurs

Différentes écritures utilisent différents claviers ou claviers matériels ou logiciels pour la saisie informatique. Les systèmes d'exploitation informatiques disposent d'éditeurs de méthode d'entrée qui facilitent la saisie de différents caractères. Les IDN sont dotés d'un type d'adaptation similaire, permettant aux utilisateurs de parcourir le Web, d'envoyer et de recevoir des courriers électroniques, de transférer des fichiers et d'utiliser toute autre application nécessitant des noms de domaines dans leur langue locale.

Unicode

Un ordinateur utilise le codage de caractères pour les comprendre. Chaque caractère appartenant à un jeu de caractères est doté d'un numéro unique. Par exemple, dans le jeu de caractères codés ASCII, la lettre majuscule « A » porte le numéro 65. La majorité des noms de domaine sont enregistrés avec des caractères ASCII (lettres de A à Z, chiffres de 0 à 9, ainsi que le trait d'union « - »). Toutefois, les signes diacritiques, utilisés par exemple pour écrire en français ou en espagnol, et les alphabets ou systèmes d'écriture non latins, tels que ceux du kanji et de l'arabe, ne peuvent pas être reproduits en ASCII. Unicode est un jeu de caractères universels codés qui concerne environ 350 langues différentes. Les IDN utilisent Unicode pour cette raison.

Balises de langue

L'infrastructure IDN de Verisign se conforme aux directives du Comité d'implémentation de registre (RIC) de l'ICANN et exige que chaque IDN soit associé à une langue spécifique à l'aide d'une « balise de langue ». L'inscrivant sélectionne la balise de langue IDN lors du processus d'enregistrement. Si un IDN comprend plusieurs langues, l'inscrivant doit sélectionner la langue qui convient le mieux. Toutes les balises de langue ne sont pas référencées à l'heure actuelle ; toutefois, la saisie des informations lors du processus d'enregistrement autorise l'adoption ultérieure des tables linguistiques. Téléchargez la liste des balises de langue valides de Verisign au format PDF

Tables linguistiques

Lorsqu'un enregistrement d'IDN est demandé, la balise de langue est vérifiée par rapport à une liste de langues qui possèdent des tables d'inclusion de caractères ou des tables de mappage de variantes de caractères. Ces tables sont appliquées aux points Unicode qui constituent un enregistrement afin de déterminer si l'enregistrement est valide pour une langue spécifique. Dans le cas où l'enregistrement échoue pour une langue donnée, le jeu de caractères peut éventuellement être disponible avec une balise de langue différente.

Variantes de caractères


Verisign s'est employée à résoudre le problème des variantes de caractères avec les parties prenantes concernées. En règle générale, les bureaux d'enregistrement enregistrent des noms de domaines ayant une signification dans leur propre langue, comme un nom, un mot ou une phrase. Cependant, plusieurs langues peuvent partager les mêmes caractères.

Par conséquent, un nom de domaine peut avoir différentes significations suivant le contexte dans d'autres langues ou cultures. Le phénomène de variante a été classifié en quatre catégories : variantes de caractère, orthographiques, lexicales et contextuelles. Pour Verisign, il est essentiel de tenir compte des variantes de caractères afin de permettre aux utilisateurs de naviguer sur internet dans leur propre langue. Les autres variantes nécessitent des jugements linguistiques complexes qui ne sont pas essentiels à l'apport d'une solution d'IDN solide.

Variantes de caractères chinois

De nombreuses langues présentent des variantes de caractères qui peuvent potentiellement entraîner la confusion de l'utilisateur final. Par exemple, la langue chinoise présente deux formes écrites : le chinois simplifié, principalement utilisé en Chine continentale, et le chinois traditionnel, principalement utilisé à Taïwan, Hong Kong et dans d'autres pays d'Asie du Sud-Est. Ces deux formes écrites partagent de nombreux caractères. Toutefois, les caractères simplifiés du chinois simplifié peuvent avoir la même signification que certains caractères complexes du chinois traditionnel. Ces caractères, appelés variantes de caractères, ont la même signification, la même prononciation mais ne se ressemblent pas.

Solution aux variantes de caractères

Différents prescripteurs de la communauté technique ont proposé diverses approches pour résoudre le problème des variantes de caractères. Chaque approche présente à la fois des avantages et des inconvénients. Toutefois, la communauté des IDN s'accorde à dire que le problème des variantes de caractères ne pourra jamais être résolu complètement car les langues sont en perpétuelle mutation. De nouvelles variantes de caractères entre les langues continueront toujours d'être introduites. Verisign a adopté les balises de langue qui référencent des tables linguistiques afin de résoudre le problème des variantes de caractères.

Verisign a travaillé à la résolution de ce problème avec les organismes intéressés, dont le China Network Information Center (CNNIC) (.cn), le Taiwan Network Information Center (TWNIC) (.tw), National internet Development Agency of Korea (.kr), Japan Registry Service (JPRS) (.jp), Chinese Domain Name Consortium (CDNC) et le Comité d'implémentation des IDN établi par l'ICANN.

Politique

Verisign a développé une politique pour les enregistrements d'IDN spécifiant les points de code autorisés, restreints et interdits.

Le système d'enregistrement partagé Verisign (Shared Registration System - SRS) permet de créer des IDN (noms de domaines internationaux) qui contiennent des caractères non ASCII pris en charge par Unicode.

Règles d'enregistrement

Comprendre les cinq règles de validation à travers lesquelles la politique est appliquée.


Afficher les règles

Logique supplémentaire

Après avoir validé un IDN, Verisign exécute une logique supplémentaire basée sur la balise de langue de l'enregistrement.


Afficher la logique supplémentaire