Sistema Unicode en Java

Sistema Unicode en Java
Los lenguajes de programación siguen un conjunto de estándares para la codificación de personajes. Estos estándares representan idiomas escritos y definen algunas reglas que deben seguirse para codificar personajes que pertenecen a esos idiomas escritos. Al igual que otros lenguajes de programación, Java también tiene un estándar de codificación de caracteres que se conoce como sistema Unicode. Esta publicación arroja luz sobre el sistema Java Unicode.

¿Qué es un sistema unicode??

Unicode System es un estándar mundial utilizado para codificar caracteres de 16 bits. Este sistema puede representar casi cualquier idioma de renombre del mundo.

Por qué unicode sistema?

Antes de la aparición del sistema Unicode, se utilizaban numerosos estándares para codificar caracteres. Éstas eran:

  1. Ascii
    ASCII, abreviatura de American Standard Code for Information Interchange es uno de los estándares más antiguos y comunes para codificar caracteres e incluye letras A-Z (mayúsculas y minúsculas) y el número 0-9, y algunos símbolos básicos.
  2. ISO 8859-1
    ISO 8859-1 es un estándar desarrollado para el idioma de Europa occidental que incluye 128 caracteres ASCII, así como 128 caracteres adicionales.
  3. KOI-8
    KOI-8 es un estándar desarrollado originalmente para ruso que permite la codificación de caracteres de 8 bits e incluye alfabetos latinos y alfabetos rusos (mayúsculas y minúsculas).
  4. GB 18030 y Big-5
    GB 18030 y Big-5 son estándares que se desarrollaron para los chinos. GB18030 representa los 20,902 caracteres HAN y símbolos adicionales de DBCS, mientras tanto, Big5, representa los caracteres chinos convencionales.

En los estándares mencionados anteriormente, el problema que ocurrió fue que se usó un valor de código específico para representar varios caracteres en múltiples idiomas. Además, la codificación del conjunto de caracteres más grande para varios idiomas variables longitudes como 1 byte, 2 bytes o más.

Entonces, para resolver este problema, se desarrolló un sistema unicode para idiomas. Cada personaje de este sistema tiene 2 bytes, por lo tanto, en Java 2 byte se usa para cada personaje.

Conclusión

Unicode System es un estándar global que se utiliza para la codificación de caracteres de caracteres de 16 bits. Se originó como una solución a los problemas que ocurrieron en los estándares de lenguaje desarrollados previamente. Java utiliza este sistema diseñado para contener 2 bytes para cada personaje. Esta publicación discute el sistema Java Unicode en profundidad.