Chapitre 11. Travailler avec du texte brut

1. Encodage par défaut
2. La solution OmegaT

1. Encodage par défaut

Les fichiers texte brut - dans la plupart des cas des fichiers portant l'extension txt - contiennent uniquement des informations textuelles et ne possèdent aucun moyen de préciser clairement à l'ordinateur en quelle langue le texte qu'ils contiennent est écrite. Dans ce cas, OmegaT ne peut que supposer que le texte est écrit dans la même langue que celle utilisée par défaut par l'ordinateur. Ce qui ne pose aucun problème si le fichier est encodé sous Unicode et utilise un jeu d'encodage de caractères 16 bits. Si le texte possède un encodage 8 bits, cependant, il est possible de se retrouver face à des situations délicates comme celle qui suit : pour des caractères japonais, au lieu d'afficher le texte...

...le système les affichera, par exemple, comme ceci :

Si l'ordinateur sur lequel OmegaT est exécuté a le russe comme langue par défaut, il affichera le texte en alphabet cyrillique et pas en Kanji.

2. La solution OmegaT

Il existe 3 façons de palier ce problème dans OmegaT. Elles impliquent toutes l'application de filtres de fichiers dans le menu Options.

Changez l'encodage de vos fichiers en Unicode.

Ouvrez votre fichier source dans un éditeur de texte capable d'interpréter correctement son encodage et enregistrez le fichier sous l'encodage « UTF-8 ». Changez l'extension de fichier pour passer de .txt à .utf8. OmegaT interprétera automatiquement le fichier comme étant un fichier UTF-8. Ceci est sans doute la meilleure solution : elle vous épargne des problèmes sur le long terme.

Spécifiez l'encodage de vos fichiers texte brut

- c.-à-d. les fichiers portant l'extension .txt - : dans la section Fichiers texte de la boite de dialogue Fichiers et filtres..., changez l'Encodage du fichier source pour le passer d'<auto> à l'encodage correspondant à votre fichier source .txt (pour l'exemple ci-dessus, vous choisirez l'extension .jp).

Changez les extensions de vos fichiers source texte brut.

par exemple, passez de .txt à .jp pour vos textes bruts en japonais : dans la section Fichiers texte de la boite de dialogue Fichiers et filtres..., ajoutez un nouveau Masque de nom de fichier source (*.jp pour cet exemple) et sélectionnez les paramètres appropriés pour l'encodage source et cible.

Pour vous faciliter le traitement de certains fichiers texte brut, OmegaT possède déjà, par défaut, la liste suivante :

  • Les fichiers .txt sont automatiquement (<auto>) interprétés par OmegaT comme étant encodés par l'encodage par défaut de l'ordinateur.

  • Les fichiers .txt1 sont des fichiers ISO-8859-1 et couvrent la plupart des langues d'Europe occidentale.

  • Les fichiers.txt2 sont des fichiers ISO-8859-2 et couvrent la plupart des langues d'Europe centrale et orientale.

  • Les fichiers .utf8 sont interprétés par OmegaT comme étant encodés en UTF-8 (un encodage qui couvre presque toutes les langues du monde).

Vous pouvez vérifier cela vous-même en sélectionnant l'élément Fichiers et filtres... dans le menu Options. Par exemple, si vous avez un fichier texte tchèque (très vraisemblablement écrit dans le code ISO-8859-2) il vous suffit de faire passer l'extension de .txt à .txt2 pour qu'OmegaT puisse interpréter le contenu correctement. Bien évidemment, pour plus de sécurité, il peut être bon de songer à convertir ce type de fichier en Unicode, c.-à-d.. de les faire passer à un format de fichier .utf8 .