Hoofdstuk 11. Werken met platte tekst

1. Standaard codering
2. De OmegaT-oplossing

1. Standaard codering

'Platte-tekst'-bestanden - meestal met de extensie .txt - bevatten slechts tekstuele informatie en bieden geen helder gedefinieerde manier om de computer te vertellen welke taal zij bevatten. Het beste dat OmegaT in zo'n geval kan doen, is er van uitgaan dat de tekst is geschreven in de taal die de computer zelf gebruikt. Dit is geen probleem voor bestanden die zijn gecodeerd in Unicode met behulp van een 16-bit tekenset voor codering. Al de tekst echter werd gecodeerd in 8-bit, kan men worden geconfronteerd met de volgende vervelende situatie: in plaats van de tekst weer te geven voor Japanse tekens...

...zal het systeem het bijvoorbeeld als volgt weergeven:

De computer waarop OmegaT wordt uitgevoerd heeft Russisch als de standaard taal en dus worden de tekens in het Cyrillisch alfabet weergegeven en niet in Kanji.

2. De OmegaT-oplossing

Er bestaan in principe drie manieren om dit op te lossen in OmegaT. Zij behelzen allemaal het gebruik van de bestandsfilters in het menu Opties.

Wijzig de codering van uw bestanden naar Unicode

open uw bronbestand in een tekstverwerker die zijn codering juist interpreteert en sla het bestand op met de codering "UTF-8". Wijzig de bestandsextensie van .txt naar .utf8. OmegaT zal het bestand automatisch interpreteren als een UTF8-bestand. Dit is de beste algemene alternatief, het bespaart u problemen op de langere termijn.

Specificeer de codering voor uw 'platte tekst'-bestanden

- d.i. bestanden met de extensie .txt - : wijzig, in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters, de Codering van bronbestand van <auto> naar de codering die overeenkomt met uw bron .txt-bestand, bijvoorbeeld .jp voor het bovenstaande voorbeeld.

Wijzig de extensies van uw 'platte tekst'-bestanden

bijvoorbeeld van .txt naar .jp voor Japanse platte teksten: voeg, in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters, een nieuw Patroon voor bronbestanden toe (*.jp voor dit voorbeeld) en selecteer de toepasselijke parameters voor de bron- en doelcodering.

OmegaT heeft standaard het volgende lijstje beschikbaar om het voor u eenvoudiger te maken om sommige 'platte tekst'-bestanden te behandelen.

  • .txt-bestanden worden automatisch (<auto>) door OmegaT geïnterpreteerd als zijnde gecodeerd in de standaard codering van de computer.

  • .txt1-bestanden zijn bestanden in ISO-8859-1, geschikt voor de meeste West-Europese talen.

  • .txt2-bestanden zijn bestanden in ISO-8859-2, die de meeste Centraal- en Oost-Europese talen ondervangt)

  • .utf8 bestanden worden door OmegaT geïnterpreteerd als zijnde gecodeerd in UTF-8 (een codering die bijna alle talen in de wereld ondervangt).

U kunt dat zelf controleren door het item Bestandsfilters te selecteren in het menu Opties. Als u bijvoorbeeld een Tsjechisch tekstbestand (zeer waarschijnlijk geschreven in de code ISO-8859-2) hebt, hoeft u alleen maar de extensie te wijzigen van .txt naar .txt2 en OmegaT zal de inhoud juist interpreteren. Indien u echter op zeker wilt spelen kunt u overwegen om dit soort bestanden te converteren naar Unicode, d.i. naar de bestandsindeling .utf8.