Chapter 11. Traballar con texto plano

1. Codificación predeterminada
2. A solución de OmegaT

1. Codificación predeterminada

Os ficheiros de texto plano (na maioría dos casos, ficheiros coa extensión .txt) conteñen só información textual e ofrecen un xeito non moi definido de informar ao computador que idioma conteñen. O mellor que pode facer OmegaT neste caso é asumir que o texto está escrito no mesmo idioma que emprega o propio computador. Isto non é un problema para os ficheiros codificados en Unicode e cun sistema de caracteres de 16 bits. Se o texto está codificado en 8 bits, porén, un pode enfrontarse á seguinte situación: en vez de amosar o texto en caracteres xaponeses...

...o sistema amosará o texto como isto, por exemplo:

O computador que executa OmegaT ten ruso coma idioma predeterminado, polo que amosa os caracteres en alfabeto cirílico e non en kanji.

2. A solución de OmegaT

Hai basicamente tres xeitos para enfrontarse a este problema en OmegaT. Todos están relacionados coa aplicación de filtros de ficheiro no menú de Opcións.

Cambiar a codificación dos seus ficheiros a Unicode

abrir o ficheiro orixe nun editor de texto que interprete correctamente a codificación e gardar o ficheiro coa codificación «UTF-8». Cambiar a extensión do ficheiro de .txt a .utf8. OmegaT interpretará automaticamente o ficheiro coma un ficheiro UTF-8. Esta é a alternativa de máis sentido común, que soluciona os seus problemas a longo prazo.

Especificar a codificación dos seus ficheiros de texto plano,

é dicir, ficheiros coa extensión .txt: na sección Ficheiros de texto no diálogo de filtros de ficheiro, cambie a Codificación do ficheiro orixe de <auto> á codificación que corresponda ao seu ficheiro orixe .txt, por exemplo, a .jp para o exemplo anterior.

Cambiar a extensión dos seus ficheiros orixe de texto plano

por exemplo, de .txt a .jp para textos planos en xaponés: na sección Ficheiros de texto do diálogo de filtros de ficheiro, engada un novo Padrón de nome de ficheiro de orixe (*.jp para este exemplo) e seleccione os parámetros apropiados para a codificación de orixe e destino.

OmegaT ten dispoñíbel a seguinte lista predeterminada para facerlle máis fácil a solución ao problema con algúns ficheiros de texto plano:

  • Os ficheiros .txt son interpretados automaticamente (<auto>) por OmegaT como se estivesen codificados coa codificación predeterminada do computador.

  • Os ficheiros .txt1 son ficheiros en ISO-8859-1, abranguendo a maioría dos idiomas de Europa occidental.

  • Os ficheiros .txt2 son ficheiros en ISO-8859-2, que abrangue a maioría dos idiomas de Europa central e oriental.

  • Os ficheiros .utf8 son interpretados por OmegaT como se estivesen codificados en UTF-8 (unha codificación que abrangue case todas as linguas do mundo).

Pode comprobalo persoalmente seleccionando Filtros de ficheiro no menú Opcións. Por exemplo, se ten un ficheiro de texto en checo (moi probabelmente escrito coa codificación ISO-8859-2), simplemente necesitaría cambiar a extensión .txt a .txt2 e OmegaT interpretará correctamente os seus contidos. E, por suposto, se desexa estar seguro, considere converter o tipo de ficheiro a Unicode, é dicir, ao formato de ficheiro .utf8.