Programma's met vertaalgeheugens werken met teksteenheden die segmenten worden genoemd. OmegaT heeft 2 manieren om een tekst te segmenteren: alineasegmentatie en zinsegmentatie (waarnaar ook wel wordt verwezen als “op regels gebaseerde-segmentatie”). Selecteer → uit het hoofdmenu en selecteer het aanwezig keuzevak, of niet, om het type segmentatie te kiezen. Alinea-segmentatie heeft in bepaalde gevallen voordelen, zoals bij bijzonder creatieve of stilistische vertalingen waarin de vertaler de volgorde van gehele zinnen zou willen wijzigen; voor het merendeel van de projecten is echter zin- segmentatie de keuze die wordt geprefereerd, omdat het betere overeenkomsten oplevert vanuit eerdere vertalingen. Als zinsegmentatie is geselecteerd kunt u de regels instellen door → te selecteren uit het hoofdmenu.
Betrouwbare segmentatieregels zijn al beschikbaar voor veel talen, dus is het onwaarschijnlijk dat het voor u nodig is om uw eigen segmentatieregels te schrijven. Aan de andere kant kan deze functionaliteit in speciale gevallen bijzonder handig zijn, waarbij u uw productiviteit kunt verhogen door de segmentatieregels af te stemmen op de tekst die vertaald moet worden.
Waarschuwing: omdat de tekst afwijkend zal segmenteren nadat filteropties zijn gewijzigd, zult u misschien geheel opnieuw moeten beginnen met vertalen. Tegelijkertijd zullen de eerder gevalideerde segmenten in het vertaalgeheugen van het project worden omgezet naar wezen-segmenten. Als u de segmentatie-opties wijzigt als een project geopend is moet u het project herladen vóórdat de wijzigingen effect hebben.
OmegaT gebruikt de volgende reeks stappen:
OmegaT parst eerst de tekst voor segmentatie op niveau van de structuur. Gedurende dit proces wordt alleen de structuur van het brondocument gebruikt om segmenten te maken.
Tekstbestanden kunnen bijvoorbeeld gesegmenteerd worden op regeleinden, lege regels of helemaal niet gesegmenteerd worden. Bestanden die opmaak bevatten (ODF-documenten, HTML-documenten, etc.) worden gesegmenteerd op het blokniveau (alinea)tags. Vertaalbare object-attributen in XHTML of HTML-bestanden kunnen als afzonderlijke segmenten worden geëxtraheerd.
Nadat het bronbestand in structurele eenheden is gesegmenteerd, zal OmegaT deze blokken verder segmenteren in zinnen.
Het proces van segmentering kan als volgt worden voorgesteld: de cursor verplaatst zich langs de tekst, één teken per keer. Voor elke cursorpositie wordt elke regel, bestaande uit een Voor- en Na -patroon, in de opgegeven volgorde toegepast en probeert of een van de Voor-patronen geldig is voor alle tekst die links van de cursor staat en het overeenkomende Na-patroon op de tekst rechts van de cursor. Als de regel overeenkomt gaat de cursor ofwel door zonder een einde voor het segment in te voegen (voor de uitzonderingsregel) of er wordt een nieuw einde voor het segment ingevoegd op de cursorpositie (voor de afbreekregels).
De twee typen regels gedragen zich als volgt:
Verdeelt de brontekst in segmenten. Voorbeeld: "Begrijpt u dat? Ik was er niet zeker van." zou moeten worden gescheiden in twee segmenten. Wat betekent dat er een afbreekregel zou moeten zijn voor "?", indien die wordt gevolgd door spaties en een woord met een hoofdletter. Selecteer het keuzevak Afbreken/Uitzondering om een regel te definiëren als een Afbreekregel.
specificeer welke gedeelten van de tekst NIET zouden moeten worden gescheiden. Niettegenstaande de punt zou "Mrs. Dalloway " niet moeten worden gesplitst in twee segmenten, dus zou een uitzonderingsregel gemaakt moeten worden voor Mrs (en voor Mr, voor Dr, voor prof etc), gevolgd door een punt. Selecteer NIET het keuzevak Afbreken/Uitzondering om een regel te definiëren als een Uitzonderingsregel.
De voorgedefinieerde afbreekregels zouden voldoende moeten zijn voor de meeste Europese talen en Japans. Gelet op de flexibiliteit kunt u overwegen om meer uitzonderingsregels te definiëren voor de taal waaruit u vertaald om u meer betekenisvolle en samenhangende segmenten te geven.
Alle segmentatieregels die zijn ingesteld voor een overeenkomend taalpatroon zijn actief en worden toegepast in de opgegeven volgorde van prioriteit, dus regels voor een specifieke taal zouden hoger moeten staan dan de standaardregels. Regels voor Canadees Frans (FR-CA) zouden bijvoorbeeld hoger moeten staan dan de regels voor Frans (FR.*) en hoger dan de standaardregels (.*). Dus, bij het vertalen vanuit Canadees Frans worden de regels voor Canadees Frans - indien aanwezig - eerst worden toegepast, gevolgd door de regels voor Frans en tenslotte de standaard regels.
Grote wijzigingen aan de segmentatieregels zouden in het algemeen moeten worden vermeden, speciaal na het voltooien van een eerste gang, maar kleinere wijzigingen, zoals het toevoegen van een herkende afkorting, kan voordelen bieden.
Klik eenvoudigweg op een verzameling van regels in de bovenste tabel om die te bewerken of uit te breiden. De regels voor die verzameling zullen in het onderste gedeelte van het venster verschijnen.
Klik op Toevoegen in het bovenste gedeelte van het dialoogvenster, om een lege verzameling van regels te maken voor een nieuw taalpatroon. Een lege regel zal aan de onderzijde van de bovenste tabel verschijnen (u moet misschien naar beneden scrollen om die te zien). Wijzig de naam van de regelverzameling en het taalpatroon naar die van de betrokken taal en de code daarvan (zie Bijlage A, Talen - ISO 639 codelijst voor een lijst van taalcodes). De syntaxis van het taalpatroon komt overeen met de syntaxis voor reguliere uitdrukkingen. Als uw regelverzameling een taal/land-paar betreft raden wij u aan om het naar boven te verplaatsen met de knop Naar boven.
Voeg de patronen Voor en Na toe. Het wordt aangeraden om programma's te gebruiken die het mogelijk maken de effecten direct te zien om de syntaxis en de toepasbaarheid te controleren. Zie het hoofdstuk over Reguliere uitdrukkingen. Een goed startpunt zullen altijd de bestaande regels zijn.
Bedoeling | Vóór | Na | Opmerking |
---|---|---|---|
Stel een segment in na een punt ('.') gevolgd door een spatie, tab ... | \. | \s | "\." staat voor het teken punt. "\s" betekent elk teken voor witruimte (spatie, tab, nieuwe pagina etc.) |
Niet segmenteren na Mr. | Mr\. | \s | Dit is een uitzonderingsregel, dus het keuzevak voor de regel moet niet zijn geselecteerd |
Stel een segment in na "。" (Japanse punt) | 。 | Let er op dat Na leeg is
|
|
Niet segmenteren na M. Mr. Mrs. en Ms. | Mr??s??\. | \s | Uitzonderingsregel - zie het gebruik van ? in reguliere uitdrukkingen |