¡UTF-8 vale la pena!
Uno de los graves problemas de la gran red es la internacionalización. Desde un principio, la internacionalización de contenidos siempre fueron definidos por unos pocos estándares, entre ellos los americanos como es el ASCII y algunos corporativos como es el de Microsoft Western Windows-1252. Esto por lo general hace que la mezcla de varios idiomas en un documento traiga bastantes dolores de cabeza.
A veces, cuando intentamos convertir documentos o mezclamos los encodings, las cosas terminan siendo como esta palabra Iñtërnâtiônà lizætiøn, ¿Símbolos raros eh?
La cuestión es, ¿cómo podemos ofrecer un encoding de archivo que soporte todos estos idiomas? Hay uno, que curiosamente he puesto a funcionar hace poco. Se llama UTF-8, pertenece a Unicode. Hay varias formas de UTF, entre ellas la más popular la UTF-8, siguiéndoles UTF-12 y hasta un UTF-32.
Unicode se define con esta frase:
Unicode provides a unique number for every character, no matter what the platform,
no matter what the program,
no matter what the language.
Resumiendo qué es Unicode y ventajas de usar UTF-8:
- Soporte a todos los caracteres.
- Compatibilidad entre páginas (véase compartir RSS, agregadotes)
- Compatibilidad entre programas.
- Menos configuraciones y cosas raras en el servidor.
Usar UTF-8 beneficiaría a todas aquellas páginas que de alguna forma u otra necesitan ofrecer un soporte de internacionalización a externos, en este caso las personas. Yendo más al grano, si usas en tu weblog UTF-8 por ejemplo, le ofreces a aquella gente que no habla tu idioma poder expresarse con el suyo, que puede ser japonés o ruso y utilizando su set de caracteres.
Το Unicode vπαρέχει έναν μοναδικό αριθμό για κάθε χαρακτήρα, η ο οποίος πλατφόρμα, το της οποίας πρόγραμμα, η του οποίου γλώσσα.
Si tu página no está codificada con UTF-8, probablemente cuando alguien escriba con un set de caracteres diferentes al que tu has seleccionado el texto se verá lleno de símbolos raros. Entonces, el problema surge a la vista. Para ello tenemos Unicode que nos brinda un soporte universal para que cada documento tenga la capacidad de mostrar diferentes sets de caracteres diferentes.
やれ打つな蝿が手をすり足をする
Oh, no la aplastes! / la mosca frota sus manos / frota sus pies
Kobayashi Issa 一茶 (1762-1826)
UTF-8 es que puede representar directamente todos los caracteres Unicode. Tener todo este soporte abre muchas puertas y da rienda suelta a la creatividad porque no. Lástima que han rechazado el set de caracteres Klingon.
Minid.net desde este rediseño del año 2005 está utilizando este estándar. De esta forma, no necesito escribir código de entidades ISO o HTML para mostrar unas palabras en japonés en mis textos en español, sino que directamente desde mi procesador de texto pego los caracteres kanji en mi entrada del weblog. Cualquier persona que interprete japonés en su ordenador y tenga soporte UTF-8, verá mi página perfectamente codificada y no tendrá que ajustar sus preferencias de idiomas para verlo.
¿Nunca han visto una que otra página web que se dedique a recopilar noticias de otro sitios usando RSS? ¿Comentarios mal codificados? Habrán notado que algunas de las noticias fueron directamente importadas de UTF-8 a una página y servidor que sólo acepta y sirve iso-8859-1. Esto se debe a que no han implementado UTF-8 todavía. Si lo hubieran implementado, probablemente no tendrían que hacer movidas raras de conversión antes de guardar un dato en la base de datos.
Otro punto a favor es la semántica del documento. Al estar escrito en UTF-8, no hace falta un navegador para interpretar el documento sino cualquier programa que utilice UTF-8 (la gran mayoría) para el set de caracteres. Esto también me beneficia para el que busca algo en Google por ejemplo, ya que Google no leerá mi documento lleno de códigos ISO sino palabras escritas en otro idioma, que es muy diferente.
Pasarse a UTF-8 no es tan fácil como copiar y pegar. Primero porque tenés que comprender qué cosas hay que configurar para que todo salga como una joya. Muchos como yo, tuvieron problemas a la hora de utilizar UTF-8 porque cuando publicábamos en la web siempre se observaban los documentos de forma rara.
Qué es lo que hice para tener UTF-8 en pasos:
- Codifiqué todas las plantillas de Textpattern con UTF-8 desde mi programa, así soporta desde un principio el set de caracteres.
- En el .htaccess de Textpattern agregué una línea que le dice a mi servidor Apache que serviré contenido UTF-8
AddDefaultCharset UTF-8 - Con un script en la consola del Apache convertí todos mis posts de minid.net de
iso-8859-1autf-8.
Pedro escribió una guía estupenda para el que tiene un poquito de coraje con estas cosas. Yo hoy agregaré unos detalles que me ayudaron en el traspaso de este weblog a una nueva era de internacionalización.
30 Respuestas a la entrada “¡UTF-8 vale la pena!”
Escrito por Federico
Mayo 25th, 2005 at 12:54 am
âCualquier programa que utilice UTF-8 (la gran mayoría) para el set de caracteres.â
Como los parsers de XML a los que sólo se les pide que soporten UTF-8 :).
Escrito por raul2010
Mayo 25th, 2005 at 4:02 am
Uf, la primera frase me ha ido directa al corazón. La internacionalización como tu dices (o el multilingüismo) se puede ver como un problema, pero yo creo que es una gran riqueza.
El problema, creo yo, viene de que el crecimiento de la red ha sido desequilibrado y la lengua inglesa tiene un peso que inunda todo. Hubiera sido diferente si desde un principio se hubiera considerado el inglés como una lengua más.
Y ahora, con calma, a leer atentamente el post, gracias!
Escrito por Antonio
Mayo 25th, 2005 at 4:25 am
Por favor que no te parezca mal, pero me sorprende que tras años trabajando en esto UTF-8 te parezca una novedad.
Escrito por mini-d
Mayo 25th, 2005 at 4:26 am
Raúl, el multiligüismo o que existan más de un idioma no es el problema. El problema está en llevar el multilingüismo a cabo sanamente. Ese es el problema. Como internet fue ideado por gente de habla inglesa está claro que este soporte sólo se limitaría al principio en este idioma.
Dicen que si internet la hubieran inventado los suizos no habría este tipo de problemas.
Escrito por ErneX
Mayo 25th, 2005 at 5:31 am
¿Dónde pone que le parezca una novedad? sheez
Escrito por davE G
Mayo 25th, 2005 at 12:40 pm
#3 â RE: Antonio
No entiendo tu comentario Antonio.
Este post es un resumen bastante extenso en el que se explica las ventajas de utilizar este tipo de codificación. Simplemente es información útil, sea nueva o no.
Como dice el autor, este blog esta dedicado a ofrecer información de todo tipo: diseño, tecnología, temas en general e inevitablemente el punto de vista del autor.
De modo que no me parece una forma demasiado elegante de criticar el post.
Saludos
Escrito por koke
Mayo 25th, 2005 at 12:56 pm
Creo que como ejemplo te has dejado uno muy significativo⦠Wikipedia !!!
Escrito por mini-d
Mayo 25th, 2005 at 1:39 pm
En efecto, la Wikipedia es el ejemplo perfecto de algo que va como la seda.
Escrito por 604
Mayo 25th, 2005 at 5:12 pm
Mi pregunta es⦠Aparte de la comodidad de poder cortar y pegar textos en japonés y otros idiomas sin tener que buscar sus códigos equivalentes, ¿tiene alguna ventaja para una web en la que todo el texto está en un solo idioma? Me refiero a que si una página en español codificada con iso-8859-1 tendrá o no problemas de visualización desde otros países.
Aparte de esto, tú que sueles pegar âkanjisâ y demás (disculpa si no lo digo correctamente), sí que te es útil y tu contenido se verá correctamente⦠pero sigue habiendo el problema de siempre: hay mucha gente que no instala los juegos de carácteres chino, japonés, etc.
Escrito por Federico
Mayo 25th, 2005 at 7:51 pm
Sumale que hay un problema no con UTF sino con la ventaja del no uso de entidades: ¿qué tan fácil es acordarte el número de mdash por ejemplo? Sumado a que mantener apretado alt y escribir en el teclado númerico no es lo más comodo.
Escrito por nelson
Mayo 26th, 2005 at 8:11 am
Hola, acerca de un script para convertir ficheros de iso-8859-1 o us-ascii a utf-8, pueden ver este que me hize para pasar mis ficheros php hechos con phpdesigner a utf-8 ya que phpdesigner todavía no soporta utf-8, por cierto lo recomiendo para editar php en windows.
Escrito por m.
Mayo 26th, 2005 at 9:55 am
Vale decir que no es un mundo perfecto y que se encontrarán problemas de incompatibilidades por aquí y allá mientras las aplicaciones se vayan poniendo al día con Unicode.
Los programadores se suelen poner perezosos y resistentes a las soluciones génericas hasta que los agarra un Y2K
Escrito por César Iglesias
Mayo 30th, 2005 at 11:00 am
ëë UTF-8ì ì¢ìí´! (A mi también me gusta el UTF-8)
Escrito por mini-d
Mayo 30th, 2005 at 12:49 pm
ç§ã¯UTF-8 ãæããã! ããã¯ç§ã®ããã®æ°ããæ¸ãæ¹ã§ããã
Amo UTF-8 también! Es una nueva forma de escribir para mi!
Escrito por Jesús Sánchez
Mayo 30th, 2005 at 3:42 pm
va a ser que utf no me funca :s
Escrito por Minid.net » Blog Archive » Get your ass in UTF now boy
Noviembre 16th, 2005 at 1:00 pm
[...] No sé como explicarles lo bueno que es tener soporte UTF. [...]
Escrito por » Prueba UTF-8
Noviembre 16th, 2005 at 1:21 pm
[...] ¡Mira que es fácil! Ya lo sabía hace un tiempo, cuando canvié de servidor y tube que migrar las BBDD a UTF-8 por problemas de acentos y demás carácteres raros. Ahora despues de leer lo que dijo hace tiempo Minid y lo vuelve a decir ahora. Me he decidido después de documentarme, claro, a pasarme a UFT-8 ãããä»å¤ããªãããããã¯ããã [...]
Escrito por Dani
Noviembre 16th, 2005 at 11:40 pm
Verás tengo una duda, cuando empecé con el diseño web utilizaba UTF-8 pero no codificaba las tildes por eso busqué información y me pasé a ISO-8859-1. Que deberia hacer para que lo codificase sin tener que usar los simbolos del html.
Escrito por Tunoheavy
Noviembre 19th, 2005 at 3:43 pm
Pues yo tengo problemas con la codificacion UTF-8 a la hora de trabajar con documentos LaTeX en español y el front end Kile. para no tener problemas tengo que cambiar la codificación de caracteres por defecto.
Escrito por a Wifiblanes.com weblog » Empieza el año con UTF-8
Diciembre 31st, 2005 at 1:49 pm
[...] Teníamos la base de datos con este formato que al día de hoy es antiguo. Las nuevas aplicaciones que están saliendo para wordpress 2.0 todo va con UTF-8 y se ha convertido en el standart a seguir, las ventajas son varias, pero la que más destaca es la de poner decir èªå®¶è£½å¯¿å¸ (sushi casero en su idioma ) Minid ya hablo de ello y bueno es importante pasarse y así empezar el año con buen pie-8. [...]
Escrito por Eduardo
Enero 9th, 2006 at 2:13 pm
UTF-8 es mas antiguo que el cagar.. se lleva usando desde hace mucho.. pero mucho
Osea eso de que se ha descubierto America nada
Escrito por mini-d
Enero 9th, 2006 at 2:59 pm
¿y?
Escrito por La mate por un yogur » WordPress 2.0 y UTF-8
Enero 11th, 2006 at 7:59 pm
[...] Las ventajas de actualizar a WordPress 2.0 son más que obvias, mientras que los avances que proporciona UTF-8 son, a día de hoy, más desconocidos para el público en general. De dar a conocer lo que significa UTF-8 y lo que podemos conseguir con él ya se encargó Diego allá por el mes de Mayo (¡UTF-8 vale la pena!). Y no soy el único que ha llevado a cabo esta propuesta, desde el wiki de Microsiervos podemos encontrar una lista de blogs que apostaron por UTF. [...]
Escrito por desde un lugar mejor.com - yabi blog » UTF-8
Enero 12th, 2006 at 4:39 pm
[...] Acabo de actualizar este blog a la codificación de caracteres UTF-8. Gracias a la guía que hizo sferazero ha salido todo bien y sin complicaciones. Si queréis saber más UTF-8 hay un interesante artículo escrito por Diego Martín. [...]
Escrito por Desinformados » ¡Ya somos UTF-8!
Marzo 14th, 2006 at 8:27 pm
[...] Cambiar la codificación de mi blog a UTF-8 es algo que siempre había querido hacer, pero con los posts importados en ISO casi me vi forzado a seguir en ese formato. Hoy, animado por un post de Mini-d, me puse manos a la obra y resultó más fácil de lo que en sí parecía. Me guié por un tutorial sencillo de aNieto2K que estaba enfocado a WordPress, y en muy poco conseguí pasar a unicode. [...]
Escrito por jarke
Marzo 18th, 2006 at 2:32 pm
Hola, no sé que pasa, pero con mis navegadores de windwos XP no consigo ver bien los caracteres chinos o japoneses. Tengo seleccionado ver las páginas con UTF-8, pero con el mozilla sólo veo ??? y con el explorer cuadraditos.
Según he leido los debería poder ver perfectamente, cuando no es así.
¿Alguien sabe como pueod solucionarlo?
Gracias.
Escrito por [ Excentris ] » Blog Archive » Multi-anotación de puesta al día
Junio 30th, 2006 at 11:45 pm
[...] He cambiado la codificación de caracteres de Excentris a UTF-8. Diego tiene una nota muy interesante con la explicación de qué es UTF-8 y las ventajas que supone utilizar esta codificación. [...]
Escrito por Argentis
Julio 8th, 2006 at 1:26 am
Excelente recomendación.
Escrito por Yo, programador » Blog Archive » Empezando con Wordpress (I)
Julio 31st, 2006 at 11:02 pm
[...] “Options” -> “Reading” Esto configurar al gusto, pero personalmente prefiero dejar la codificación en UTF-8, que es internacional y cualquiera podrá leerte, aunque no tenga tu juego de caracteres. Si quieres saber algo más sobre UTF-8 y porqué es recomendable usarlo, te recomiendo que leas el post “UTF-8 vale la pena” en minid. También marco la opción de comprimir con gzip el contenido: hará que tus páginas pesen menos. [...]
Escrito por Daidaros ahora en UTF-8 at Daidaros
Agosto 7th, 2006 at 9:57 pm
[...] Continuando con los cambios al blog. He cambiado la localización a UTF-8. Las razones las pueden encontrar acá. [...]