'Platte-tekst'-bestanden - meestal met de extensie .txt - bevatten slechts tekstuele informatie en bieden geen helder gedefinieerde manier om de computer te vertellen welke taal zij bevatten. Het beste dat OmegaT in zo'n geval kan doen, is er van uitgaan dat de tekst is geschreven in de taal die de computer zelf gebruikt. Dit is geen probleem voor bestanden die zijn gecodeerd in Unicode met behulp van een 16-bit tekenset voor codering. Al de tekst echter werd gecodeerd in 8-bit, kan men worden geconfronteerd met de volgende vervelende situatie: in plaats van de tekst weer te geven voor Japanse tekens...
...zal het systeem het bijvoorbeeld als volgt weergeven:
De computer waarop OmegaT wordt uitgevoerd heeft Russisch als de standaard taal en dus worden de tekens in het Cyrillisch alfabet weergegeven en niet in Kanji.
Er bestaan in principe drie manieren om dit op te lossen in OmegaT. Zij behelzen allemaal het gebruik van de bestandsfilters in het menu Opties.
open uw bronbestand in een tekstverwerker die zijn codering juist interpreteert en sla het bestand op met de codering "UTF-8". Wijzig de bestandsextensie van .txt
naar .utf8
. OmegaT zal het bestand automatisch interpreteren als een UTF8-bestand. Dit is de beste algemene alternatief, het bespaart u problemen
op de langere termijn.
- d.i. bestanden met de extensie .txt
- : wijzig, in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters, de Codering van bronbestand van <auto> naar de codering die overeenkomt met uw bron .txt
-bestand, bijvoorbeeld .jp voor het bovenstaande voorbeeld.
bijvoorbeeld van .txt
naar .jp
voor Japanse platte teksten: voeg, in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters, een nieuw Patroon voor bronbestanden toe (*.jp
voor dit voorbeeld) en selecteer de toepasselijke parameters voor de bron- en doelcodering.
OmegaT heeft standaard het volgende lijstje beschikbaar om het voor u eenvoudiger te maken om sommige 'platte tekst'-bestanden te behandelen.
.txt
-bestanden worden automatisch (<auto>) door OmegaT geïnterpreteerd als zijnde gecodeerd in de standaard codering van de computer.
U kunt dat zelf controleren door het item Bestandsfilters te selecteren in het menu Opties. Als u bijvoorbeeld een Tsjechisch tekstbestand (zeer waarschijnlijk geschreven in de code ISO-8859-2) hebt, hoeft u alleen maar de extensie te wijzigen van .txt
naar .txt2
en OmegaT zal de inhoud juist interpreteren. Indien u echter op zeker wilt spelen kunt u overwegen om dit soort bestanden te converteren
naar Unicode, d.i. naar de bestandsindeling .utf8
.