Os tokenizers (ou stemmers) melloran a calidade das coincidencias recoñecendo palabras inseridas nos textos de orixe e na memoria de tradución. Tamén melloran a coincidencia do glosario.
Un stemmer para o inglés, por exemplo, debería identificar a cadea «cat» coma base da cadea «cats»(e posibelmente «catlike», «catty», etc.) e «stem» coma base de «stemmer», «stemming» e «stemmed». Un algoritmo de stemming reduce as palabras «fishing», «fished», «fish» e «fisher» á palabra raíz, «fish». Isto é especialmente útil no caso de linguas que empreguen prefixos e sufixos para a creación de palabras. Tomando un exemplo do esloveno, aí vai a palabra «bo» en todas as formas gramaticalmente correctas:
lep, lepa, lepo (singular: masculino, feminino e neutro)
lepši, lepša, lepše . (formas plurais correspondentes ao comparativo, nominativo, masculino, feminino e neutro do adxectivo)
najlepših (superlativo, plural, xenitivo para o masculino, feminino e neutro)
Distribúese un paquete de tokenizer adaptado do proxecto Lucene coma un engadido de OmegaT en http://sourceforge.net/projects/omegat-plugins/files/. Descargue os ficheiros máis recentes (OmegaT-tikenizers_0.5-2.1.zip no momento en que se escribe este documento).
Para instalar o tokenizer, cree un cartafol co nome «plugins» no cartafol no que se atopa o ficheiro OmegaT.jar e extraia os ficheiros indicados anteriormente nese cartafol.
Para executar OmegaT co tokenizer, necesita especificar que tokenizer empregará para o idioma de orixe e cal para o idioma de destino. A sintaxe é a seguinte:
java -jar OmegaT.jar --ITokenizer=[nome do tokenizer do idioma de orixe] --ITokenizerTarget=[nome do tokenizer do idioma de
destino]
O nome dos tokenizer veñen no ficheiro Readme.txt incluído no cartafol do tokenizer. Por exemplo, se desexa empregar o tokenizer Lucene CJK no idioma de orixe e o Lucene French na de destino, a súa orde tería que ser a seguinte:
java -jar OmegaT.jar
--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer
--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Se desexa empregar os tokenizers co paquete OmegaT.app para Mac OS X, ten que realizar a instalación anterior (clic dereito
en OmegaT.app para atopar a localización de OmegaT.jar), mais necesitará especificar o nome dos tokenizer no ficheiro info.plist
que contén as opcións de inicio de Java. Siga as instrucións anteriores para acceder ao ficheiro info.plist
e editalo de modo que quede así para o exemplo dado anteriormente:
<key>VMOptions</key>
<string>-Xmx1024M</string>
<key>Arguments</key>
<array>
<string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
<string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>
Para asegurarse de que os tokenizers están activos, abra un proxecto e comprobe a información do log desde a consola. Co exemplo anterior, debería aparecer así:
84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Os números da esquerda poden ser diferentes no seu sistema así que asegúrese de que o nome do tokenizer de orixe e destino, especificados nas opcións de inicio, corresponden co que amosa o log. Se os tokenizers non se iniciar adecuadamente, o log amosará isto:
84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer 84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Co paquete OmegaT.app para Mac OS X, faga dobre clic no JavaApplicationStub
situado en /OmegaT.app/Contents/MacOS/ (vexa máis arriba como acceder a el) para iniciar OmegaT desde unha consola e ter
acceso inmediato ao log.