Please enable JavaScript.
Coggle requires JavaScript to display documents.
Codificación de caracteres (UTF-8 (Derivados (CESU-8, UTF-8 modificado,…
Codificación de caracteres
UNICODE
Estándar para la codificación, representación y manejo de texto
Arquitectura
Define un
codespace
de 1, 114, 112 puntos de código en el rango 0h - 10FFFh
Un punto de código Unicode se escribe "U+" seguido por el número hexadecimal
Dependiendo del plano en el que se escriba, se pueden usar 4 o 6 dígitos para la codificación
La versión actual es la 11.0
Métodos de mapeo
Unicode Transformation Format
Universal Coded Character Set
Una codificación mapea el rango de puntos de código Unicode a secuencias de valores con un tamaño fijo
Adopción
Esquema dominante
Utilizado casi exclusivamente para construir nuevos sistemas de procesamiento de información
UTF-16
Codificados con uno o dos 16-bit unidades de código
Utilizado internamente por Windows,Java y JavaScript
Utilizado en texto plano y procesamiento de texto en Windows
No es muy utilizado en Unix
Produce una secuencia de 16-bit unidades de código
Uso
Windows
Symbian
Python
Java
JavaScript
UTF-8
Capaz de codificar 1.112.064 puntos de código válidos en Unicode
Solamente utiliza cuatro 8-bit bytes
Diseñado para ser compatible con ASCII
Puntos con valores numéricos más bajos son los valores que tienden a ser más frecuentes
Los primeros 128 caracteres de Unicode están codificados utilizando un solo octeto
Dominante desde el 2009
Los primeros 128 caracteres utilizan los mismos valores binarios que ASCII
Derivados
CESU-8
UTF-8 modificado
WTF-8