Trabalhar com texto simples


Codificação predefinida

Arquivos de texto simples - na maioria dos casos com a extensão .txt - contêm exclusivamente informações em texto. Não há nenhuma maneira claramente definida para informar ao computador qual a língua que eles contêm. Simplificando, isto significa que o computador considera por predefinição que o conteúdo do arquivo está na mesma linguagem do computador.


Texto exibido truncado

Se você é russo, é provável que seu computador funcione em russo também; os menus estão em russo, os arquivos que você abre estarão em russo, etc. Na maioria dos casos, o computador deduz corretamente sobre o conteúdo dos arquivos em geral: eles todos contêm russo e não mostram nada além dos caracteres russos.

Agora, se você for um tradutor russo que traduz do japonês, os arquivos em japonês que receber, se forem texto simples provavelmente serão considerados pelo computador como arquivos contendo russo. Isto porque não há informações nos próprios arquivos para indicar ao computador na qual língua eles foram escritos. O conteúdo dos arquivos em japonês pode ser:

OmegaTとは、コンピュータを利用した翻訳ツールです。


Porque seu editor de texto espera um texto em russo, poderá mostrar o seguinte:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB


Porém, isso são caracteres japoneses exibidos de forma errada como caracteres russos.

Como qualquer outro aplicativo, o OmegaT está sujeito a esse problema também. Ele processa que, por predefinição, os arquivos de texto simples serão exibidos usando as configurações definidas do sistema. Isto funciona quando o computador opera em francês e você recebe arquivos em inglês, ou quando o computador é alemão e você recebe arquivos em italiano.


Conjuntos de caracteres e codificação

Por que então funciona com inglês e francês, mas não com russo e japonês? Porque inglês e francês compartilham o mesmo conjunto de caracteres. Ou seja, Latin-1, ou uma variação dele. Até recentemente, o russo e o japonês não compartilhavam nenhum conjunto de caracteres. Os conjuntos mais recentes de caracteres russos não cobrem os japonês e vice-versa. O resultado é o mostrado acima.

O cliente japonês trabalha com um computador japonês e cria arquivos de texto contendo caracteres japoneses. O conjunto de caracteres selecionado pelo computador do cliente dependerá do sistema operacional e de outras configurações, mas será difícil que o conjunto escolhido (japonês) seja interpretado corretamente por um computador russo.

Como as informações de texto em um conjunto de caracteres específico são transmitidas fisicamente (isto é, quais são os códigos numéricos que o computador usa para interpretar e exibir o texto) depende da codificação. Quando o computador lê o arquivo, ele "decodifica" as informações de acordo com a codificação; depois, elas são exibidas de acordo com o conjunto de caracteres. Em termos gerais, uma codificação corresponde a um conjunto de caracteres...


A solução OmegaT

Existem basicamente 3 maneiras de fazer isso funcionar no OmegaT. Todas requerem o uso de filtros de arquivos exibidos no menu Opções.

  1. Especifique a codificação para seus arquivos texto simples, ou seja, arquivos com a extensão .txt: na seção Arquivos de texto da caixa de diálogo Filtros de arquivos, altere a Codificação de arquivo fonte de <auto> para a codificação que corresponde ao seu arquivo fonte .txt.
  2. Altere as extensões dos seus arquivos fonte de texto simples (de .txt para .jp usado para o japonês, por exemplo): na seção Arquivos de texto da caixa de diálogo Filtros de arquivos adicione um novo padrão no Tipo de arquivo fonte (p.ex. *.jp) e selecione os parâmetros apropriados para a codificação do arquivo fonte e do traduzido.
  3. Altere a codificação de seus arquivos para Unicode: abra o arquivo fonte em um editor de texto que interpreta corretamente sua codifição e grave o arquivo como "UTF-8". Altere a extensão do arquivo de .txt para .utf8. O OmegaT irá interpretar automaticamente o arquivo como UTF-8.

O OmegaT tem uma lista pequena que poderá facilitar seu trabalho ao lidar com alguns arquivos de texto simples:

Você pode verificar isso selecionando o item Filtros de arquivos no menu Opções. Por exemplo, quando você tem um arquivo de texto em checo (muito provavelmente gravado no código ISO-8859-2 ), só precisa mudar a extensão .txt para .txt2 e o OmegaT irá interpretar o seu conteúdo corretamente. E, claro, para se garantir, considere converter esse tipo de arquivos em Unicode, ou seja, o formato de arquivo .utf8.


Avisos legais Home Índice