Bijlage D. plug-in Tokenizer

1. Introductie
2. Installatie en gebruik van de opdrachtregel
3. Mac OS X specifieken
4. Probleemoplossing

1. Introductie

Tokenizers (of stemmers) verbeteren de kwaliteit van de overeenkomsten door het herkennen va betrokken woorden in de bron en gegevens in de vertaalgeheugens. Zij verbeteren ook de overeenkomsten voor de woordenlijsten.

Een stemmer voor bijvoorbeeld Engels zou de tekenreeks "cats" identificeren (en mogelijk "catlike", "catty" etc.) omdat die is gebaseerd op de stam "cat", en "stemmer", "stemming", "stemmed" omdat die is gebaseerd op "stem". Een stemming algoritme reduceert de woorden "fishing", "fished", "fish", en "fisher" tot de stam van het woord: "fish". Dit is speciaal bijzonder handig in het geval van talen die vormen voor voor- en achtervoegsel voor de stamwoorden gebruiken. Lenen we een voorbeeld uit het Sloveens, hier "good" in alle mogelijke grammaticaal juiste vormen:

  • lep, lepa, lepo - enkelvoud, mannelijk, vrouwelijk, neutraal

  • lepši, lepša, lepše . - comparatief, nominatief, mannelijk, vrouwelijk, neutraal, resp. meervoudsvorm van het bijvoeglijk naamwoord

  • najlepših - superlatief, meervoud, genitief voor M,F,N

2. Installatie en gebruik van de opdrachtregel

Een tokenizerpakket dat is afgeleid van het Luceneproject wordt gedistribueerd als een OmegaT plug-in op http://sourceforge.net/projects/omegat-plugins/files/. Download de meest recente bestanden (OmegaT-tokenizers_0.4_2-2.1.zip op het moment van schrijven).

Maak een map met de naam "plug-ins" in de map waar OmegaT.jar staat en pas de bovenstaande bestanden in die map uit om de tokenizer te installeren.

U moet de tokenizer specificeren die u zal gaan gebruiken voor de brontaal en welke tokenizer u zult gaan gebruiken voor de doeltaal om OmegaT uit te voeren. De syntaxis is als volgt:

java -jar OmegaT.jar --ITokenizer=[brontaal naam tokenizer] --ITokenizerTarget=[doeltaal naam tokenizer]

De namen van de tokenizers zijn vermeld in het bestand Readme.txt dat wordt gedistribueerd met de bestanden van de tokenizer. Als u bijvoorbeeld de Lucene CJK tokenizer wilt gebruiken voor de brontaal en de Lucene French tokenizer in de doeltaal, zal uw opdracht er als volgt uitzien:

java -jar OmegaT.jar --ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

3. Mac OS X specifieken

Indien u de tokenizers wilt gebruiken met het Mac OS X OmegaT.app pakket is de installatie van de tokenizer zoals die hierboven is vermeld van toepassing (klik met rechts op de OmegaT.app om de locatie van OmegaT.jar te vinden), maar u zult de namen van de tokenizers moeten specificeren in info.plist dat de startopties voor Java bevat. Volg bovenstaande instructies om toegang te krijgen tot het bestand info.plist en bewerk het zodanig dat het er als volgt uitziet voor het voorbeeld dat we zojuist gaven:


<key>VMOptions</key>
<string>-Xmx1024M</string>

<key>Arguments</key>
<array>
  <string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
  <string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>

4. Probleemoplossing

Open een project en controleer de informatie in het log van de console om er voor te zorgen dat de tokenizers ook echt worden gebruikt. Met het bovenstaande voorbeeld zou dat er uitzien als:


84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer 
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer 

De getallen aan de linkerzijde zijn waarschijnlijk anders op uw systeem dus zorg er voor dat de namen voor de tokenizers voor de bron- en de doeltaal, gespecificeerd in de startopties, overeenkomend met wat het log weergeeft. Als de tokenizers niet juist zijn geactiveerd, zal het log er als volgt uitzien:


12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer 
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer 

Met het Mac OS X OmegaT.app pakket, dubbelklik op de JavaApplicationStub die is geplaatst in /OmegaT.app/Contents/MacOS/ (kijk hierboven om toegang te verkrijgen) om OmegaT te starten vanuit de console en direct toegang te krijgen tot het log.