Recursos de canal

Nomes de domínio internacionalizados

Descubra o poder do .com e .net no idioma local

Abra um mundo de oportunidades com novos clientes, novos registros e com a expansão dos serviços na Web.

Os nomes de domínio internacionalizados (IDNs) da Verisign permitem que as empresas digam .com e .net em caracteres do idioma local. É uma maneira mais amigável e mais expressiva de se conectar com os clientes.

A história do IDN

Em 1996, aproximadamente dois terços de todos os usuários da Internet estavam nos Estados Unidos. Por isso, os caracteres baseados no inglês ou no latim (também conhecidos como ASCII) serviam de base para navegar na web. No entanto, desde aquela época, de acordo com o relatório "State of the Global and Local Internet Comscore" de 2012, a população de usuários da Internet que não falam inglês cresceu 87 por cento, sendo que a região Ásia-Pacífico responde por 41,1 por cento desses usuários no mundo.

No início, o nome de domínio suportava apenas caracteres ASCII (de A a Z, de 0 a 9 e o hífen "-"), o que significa que as palavras que não eram de origem inglesa e precisavam de diacríticos (ex.: acentos, trema, braquia, pontos etc.) e outros idiomas baseados em caracteres não latinos (ex.: hangul, árabe, tailandês, chinês simplificado etc.) não podiam ser usados para navegar na Internet.

Com o aumento da atividade na Internet fora dos países ocidentais, a introdução de caracteres não baseados no latim foi um avanço oportuno para as empresas de registro de domínio e seus clientes, e trouxe novas oportunidades de mercado para empresas de registro de domínio regionais e globais que procuram expandir seu negócio.

Em 2000, a Verisign lançou os nomes de domínio internacionalizados (IDNs) em segundo nível (à esquerda do ponto) para .com e .net. Isso significa que nomes de domínio como 스타벅.com poderiam ser criados, registrados e procurados para tornar a Internet mais acessível e relevante para milhões de usuários.

Em 2012, a Verisign se inscreveu para operar os registros de nove transliterações do .com e três do .net (à direita do ponto) como parte dos novos domínios de primeiro nível genéricos (gTLD) da ICANN, o que permitirá que a Verisign proporcione às empresas nomes de domínio completos em caracteres do idioma local.

A abordagem proposta pela Verisign para esses novos gTLDs de IDN ajudará a assegurar uma experiência de usuário final generalizada, além de ajudar a proteger os consumidores e as empresas contra o registro de nomes de domínio puramente defensivos em nossos TLDs. Na prática, a abordagem proposta pela Verisign significa que o solicitante de registro de um domínio de segundo nível em nosso IDN.IDN, IDN.com ou IDN.net terá o direito exclusivo (sujeito a mecanismos de proteção dos direitos aplicáveis), mas não será obrigado a registrar o domínio de segundo nível idêntico em quaisquer IDNs de primeiro nível, .com ou .net, conforme aplicável.

Para ilustrar nossa abordagem, identificamos dois casos de uso a seguir:

Caso de uso nº 1: Roberto Souza já tem um registro para um nome de domínio de segundo nível IDN.net. Esse nome de domínio de segundo nível estará indisponível em todos os novos TLDs .net, exceto para Roberto Souza. Roberto Souza pode optar por não registrar esse nome de domínio de segundo nível em nenhuma das novas transliterações dos TLDs .net.

Caso de uso nº 2: João da Silva não tem um registro para um nome de domínio de segundo nível IDN.com. João da Silva registra um nome de domínio de segundo nível em nossa transliteração para tailandês do .com, mas em nenhum outro TLD. Esse nome de domínio de segundo nível estará indisponível em todas as outras transliterações de TLDs IDN .com e no registro do .com, a menos e até que João da Silva (e somente João da Silva) o registre em outro TLD IDN .com ou no registro .com.

Versões do .com e .net em idioma local

A Verisign solicitou nove transliterações para .com e três para .net como parte do programa de novos domínios de primeiro nível genéricos (gTLD), para proporcionar às empresas nomes de domínio .com e .net com caracteres do idioma local.

.com
.net
.com

Cirílico

.net

Devanágari

.com

Hebraico

.net

Chinês simplificado

.com

Árabe

.net

Hangul

.com

Devanágari

.com

Tailandês

.com

Katakana

.com

Chinês simplificado

.com

Chinês tradicional

.com

Hangul

O processo de registro de IDN


O solicitante de registro pede um IDN para uma distribuidor autorizado de domínios que suporta IDNs. A uma distribuidor autorizado de domínios converte os caracteres do idioma local em uma sequência de letras suportadas usando uma codificação compatível com ASCII (ACE). A distribuidor autorizado de domínios envia a sequência de caracteres ACE para o Sistema de Registro Compartilhado (SRS) da Verisign®, onde ele é verificado. O IDN é adicionado aos arquivos de zona de TLD .com e .net apropriados e propagados pela Internet.


Processo de resolução de IDN

Quando um usuário insere um IDN usando scripts nativos em um navegador da Web ou segue um link, os aplicativos ativados para IDN codificam os caracteres em uma sequência ACE que o DNS entenda. O DNS processa a solicitação e devolve as informações para o registro. Apesar de o processo parecer simples, o suporte ao DNS e ao aplicativo habilitado para IDN de idiomas e scripts diferentes exigiu pesquisa e desenvolvimento significativos.

Padrões de IETF



A Força-Tarefa de Engenharia na Internet (Internet Engineering Task Force - IETF) liderou os esforços para criar padrões para o uso de caracteres não ASCII no Sistema de Nomes de Domínio (DNS).

O DNS somente reconhece caracteres ASCII A-Z, 0-9 e "-". Isso limita o número de caracteres que pode ser utilizado para constituir nomes de domínio para 37 dos mais de 96.000 caracteres identificados pelo Unicode. Para criar nomes de domínio a partir da variedade de caracteres Unicode, um esquema de codificação de caracteres que mapeia de forma singular pontos de código Unicode para uma representação ASCII deve ser usado e padronizado.

A IETF publicou estes padrões relacionados aos nomes de domínio internacionalizados (IDN): Esquemas de codificação, Estrutura, Protocolo, Unicode e Scritps da direita para a esquerda.

Esquema de codificação

O esquema de codificação para IDNs utiliza punycode, uma codificação compatível com ASCII (ACE) que codifica caracteres do idioma local em caracteres ASCII, de modo que o DNS consiga responder de forma precisa a um pedido de registro de endereço. Para selecionar um punycode como o padrão ACE, a IETF considerou uma proporção entre compressão e implementação. O punycode permite que um maior número de caracteres (pontos de código) seja representado e fácil de posicionar.

Estrutura [RFC 5890]

Esta RFC tem a ver com uma coleção que, junta, descreve o protocolo e o contexto de utilização para uma revisão dos nomes de domínio internacionalizados para os aplicativos (IDNA) que foi amplamente concluída em 2008, conhecida dentro da série e em outros lugares como "IDNA2008". A série substitui uma versão anterior da IDNA [RFC 3490] [RFC 3491]. Por conveniência, essa versão da IDNA é conhecida como "IDNA2003". A versão mais recente continua usando o algoritmo punycode [RFC3492] e o prefixo ACE (codificação compatível com ASCII) da versão anterior.

Protocolo [RFC 5891]

Esta RFC descreve o protocolo IDNA2008 central e suas operações. Em combinação com o documento "bidirecional" (Bidi) descrito abaixo, ele explicitamente atualiza e substitui o [RFC 3490].

Unicode [RFC 5892]

Esta RFC especifica as regras para decidir se um ponto de código, considerado isoladamente ou no contexto, é um candidato para inclusão em um IDN. Faz parte da especificação do IDNA2008.

Scripts da direita para a esquerda [RFC 5893]

O uso de scritps da direita para esquerda nos nomes de domínio internacionalizados (IDNs) apresentou vários desafios. Esta RFC fornece novas regras Bidi para as marcações dos nomes de domínio internacionalizados para aplicativos (IDNA), com base nos problemas encontrados com alguns scripts e algumas deficiências no critério Bidi IDNA 2003.

Lógica [RFC 5894]

Esta RFC fornece a base, a explicação e a lógica para a necessidade de novas RFCs para enfrentar os problemas que surgem da(s) versão(ões) anterior(es) do IDNA. A necessidade de atualizar a versão do Unicode suportado nos IDNs também é discutida nesta RFC.

RFCS publicadas

Esses padrões foram publicados e agora estão disponíveis:

A Verisign tem o compromisso de seguir os padrões IETF e apoiar a rápida implantação dessa nova tecnologia.

Scripts + Idiomas



Os nomes de domínio internacionalizados (IDNs) são nomes de domínio de segundo ou terceiro nível, ou endereços da Web registrados em qualquer conjunto de caracteres ou script definido em Unicode.

Para entender como os IDNs da Verisign são compatíveis com o registro de nomes de domínio em centenas de idiomas nativos através de um único Sistema de Registro Compartilhado (SRS), é preciso entender como os caracteres e scripts são usados em linguagem escrita e convertidos para computação.

Relação entre script, caractere e idiomas

SCRIPT Latim Árabe Han Grego
CARACTERE L س 漢字 Ω
Idioma Inglês Persa Chinês Grego

Script

Um script é um conjunto de símbolos usado para representar informações textuais em um idioma. Exemplos de scripts: latim, árabe, han, grego.

Caractere

Um caractere é o bloco constitutivo básico de qualquer script e, portanto, de qualquer língua escrita. Ele evoca um significado em um nível fundamental; não é possível dividir um caractere ainda mais e ter um significado mesmo assim.

Idioma escrito

Um idioma escrito utiliza caracteres de um ou mais scripts para comunicar sentidos. Exemplos de idiomas: inglês, persa, chinês, grego.

Adaptando idiomas a computadores

Scripts diferentes usam teclados ou teclados virtuais diferentes para a entrada de dados em dispositivos computacionais. Os sistemas operacionais têm editores de métodos de entrada (IME) que facilitam a entrada de dados de diferentes scripts. Os IDNs são tipos similares de adaptações, permitindo que as pessoas usem seus scripts no idioma local para navegar na Internet, enviar e receber e-mails, transferir arquivos e outros aplicativos que exigem nomes de domínio.

Unicode

Um computador usa codificação de caracteres para entendê-los. A cada caractere em um conjunto de caracteres é atribuído um número único. Por exemplo, no conjunto de caracteres com codificação ASCII, à caixa alta "A" é atribuído o numero 65. A maioria dos nomes de domínio é registrada em caracteres ASCII (A a Z, 0 a 9 e hífen “-“). No entanto, palavras não inglesas que requerem diacríticos, como espanhol ou francês, e idiomas que usam scripts não latinos, como kanji e árabe, não podem ser exibidas em ASCII. O Unicode é um conjunto universal de caracteres codificados, o qual abrange 350 idiomas nativos diferentes. Por esse motivo, os IDNs usam Unicode.

Guias de idioma

A infraestrutura IDN da Verisign está em conformidade com as diretrizes do ICANN Registry Implementation Committee (RIC) e requer que cada IDN esteja associado a um idioma específico usando uma "guia de idioma". O solicitante do registro seleciona a guia de idioma do IDN durante o processo de registro. Se um IDN combinar mais de um idioma, o solicitante do registro deverá selecionar o idioma mais apropriado. Nem todas as guias de idioma são referenciadas hoje; no entanto, capturar as informações durante o processo de registro permite a adoção de tabelas de idiomas no futuro. Faça download da lista de guias de idiomas válidas da Verisign (PDF)

Tabelas de idiomas

Quando um registro de IDN é solicitado, a guia de idioma é verificada com relação a uma lista de idiomas que tenham tabelas de inclusão de caracteres ou tabelas de mapeamento de variante de caracteres. Essas tabelas são aplicadas aos pontos Unicode que compõem um registro para determinar se o registro é válido para um idioma específico. Se o registro falhar para um idioma, o conjunto de caracteres ainda poderá estar disponível com uma guia de idioma diferente.

Variantes de caracteres


A Verisign vem trabalhando para resolver o problema das variantes de caracteres com as partes interessadas. Os solicitantes de registro de domínio geralmente registram nomes de domínio que têm um significado na própria língua, por exemplo: nomes, palavras ou frases. No entanto, um único script pode ser usado por mais de uma língua.

Como resultado, um nome de domínio pode ter diferentes significados no contexto de outras línguas ou culturas. O fenômeno das variantes tem sido classificado em quatro categorias diferentes: variante de caractere, variante ortográfica, variante lexêmica e variante contextual. A Verisign determinou que dedicar-se a variantes de caracteres é essencial para permitir que os usuários naveguem na Internet em seus próprios idiomas. As outras variantes exigem um julgamento linguístico difícil que não é essencial para se chegar a uma solução resoluta para IDNs.

variantes de caracteres chineses

Muitos idiomas poderão ter variantes de caracteres que poderiam, potencialmente, causar confusão do usuário final. Por exemplo, o idioma chinês possui duas formas escritas: chinês simplificado, usado principalmente no continente, e chinês tradicional, usado principalmente em Taiwan, Hong Kong e outros países do sudoeste da Ásia. Os dois formulários escritos compartilham muitos caracteres; no entanto, caracteres simplificados em chinês simplificado poderão ter o mesmo significado que caracteres complexos em chinês tradicional. Esses caracteres, chamados de variantes de caracteres, têm o mesmo significado e pronúncia, mas não a mesma aparência.

Uma solução da variante de caracteres

Diferentes líderes de pensamentos na comunidade técnica sugeriram diferentes abordagens para tratar o problema da variante de caracteres. Cada abordagem tem aspectos positivos e negativos. No entanto, a comunidade IDN está em acordo de que o problema da variante de caracteres poderá nunca ser totalmente tratado, pois os idiomas estão sempre em estado de mudança. Novas variantes de caracteres entre idiomas continuarão a ser introduzidas em idiomas. A Verisign adotou guias de idioma que referenciam tabelas de idiomas para tratar o problema da variante de caracteres.

A Verisign trabalhou para tratar o problema de variantes de caracteres com as partes interessadas, incluindo China Network Information Center (CNNIC) (.cn), Taiwan Network Information Center (TWNIC) (.tw), National Internet Development Agency of Korea (.kr), Japan Registry Service (JPRS) (.jp), o Chinese Domain Name Consortium (CDNC) e o IDN Implementation Committee estabelecido pela ICANN.

Política

A Verisign desenvolveu uma política para registros de IDN, especificando pontos de código permitidos, restritos e proibidos.

O Sistema de Registro Compartilhado (SRS) da Verisign permite a criação de nomes de domínio internacionalizados (IDNs) que contêm scripts não ASCII compatíveis com Unicode.

Regras de registro

Entenda as cinco regras de validação através das quais a política é implementada.


Veja as regras

Lógica adicional

Depois de validar um IDN, a Verisign realiza uma lógica extra baseada na marcação de idioma do registro.


Veja a lógica adicional