Appendix D. Engadido de Tokenizer

1. Introdución
2. Instalación e emprego da liña de ordes
3. Especificacións para Mac OS X
4. Resolución de problemas

1. Introdución

Os tokenizers (ou stemmers) melloran a calidade das coincidencias recoñecendo palabras inseridas nos textos de orixe e na memoria de tradución. Tamén melloran a coincidencia do glosario.

Un stemmer para o inglés, por exemplo, debería identificar a cadea «cat» coma base da cadea «cats»(e posibelmente «catlike», «catty», etc.) e «stem» coma base de «stemmer», «stemming» e «stemmed». Un algoritmo de stemming reduce as palabras «fishing», «fished», «fish» e «fisher» á palabra raíz, «fish». Isto é especialmente útil no caso de linguas que empreguen prefixos e sufixos para a creación de palabras. Tomando un exemplo do esloveno, aí vai a palabra «bo» en todas as formas gramaticalmente correctas:

  • lep, lepa, lepo (singular: masculino, feminino e neutro)

  • lepši, lepša, lepše . (formas plurais correspondentes ao comparativo, nominativo, masculino, feminino e neutro do adxectivo)

  • najlepših (superlativo, plural, xenitivo para o masculino, feminino e neutro)

2. Instalación e emprego da liña de ordes

Distribúese un paquete de tokenizer adaptado do proxecto Lucene coma un engadido de OmegaT en http://sourceforge.net/projects/omegat-plugins/files/. Descargue os ficheiros máis recentes (OmegaT-tikenizers_0.5-2.1.zip no momento en que se escribe este documento).

Para instalar o tokenizer, cree un cartafol co nome «plugins» no cartafol no que se atopa o ficheiro OmegaT.jar e extraia os ficheiros indicados anteriormente nese cartafol.

Para executar OmegaT co tokenizer, necesita especificar que tokenizer empregará para o idioma de orixe e cal para o idioma de destino. A sintaxe é a seguinte:

java -jar OmegaT.jar --ITokenizer=[nome do tokenizer do idioma de orixe] --ITokenizerTarget=[nome do tokenizer do idioma de destino]

O nome dos tokenizer veñen no ficheiro Readme.txt incluído no cartafol do tokenizer. Por exemplo, se desexa empregar o tokenizer Lucene CJK no idioma de orixe e o Lucene French na de destino, a súa orde tería que ser a seguinte:

java -jar OmegaT.jar --ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

3. Especificacións para Mac OS X

Se desexa empregar os tokenizers co paquete OmegaT.app para Mac OS X, ten que realizar a instalación anterior (clic dereito en OmegaT.app para atopar a localización de OmegaT.jar), mais necesitará especificar o nome dos tokenizer no ficheiro info.plist que contén as opcións de inicio de Java. Siga as instrucións anteriores para acceder ao ficheiro info.plist e editalo de modo que quede así para o exemplo dado anteriormente:


<key>VMOptions</key>
<string>-Xmx1024M</string>

<key>Arguments</key>
<array>
  <string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
  <string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>

4. Resolución de problemas

Para asegurarse de que os tokenizers están activos, abra un proxecto e comprobe a información do log desde a consola. Co exemplo anterior, debería aparecer así:


84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer 
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer 

Os números da esquerda poden ser diferentes no seu sistema así que asegúrese de que o nome do tokenizer de orixe e destino, especificados nas opcións de inicio, corresponden co que amosa o log. Se os tokenizers non se iniciar adecuadamente, o log amosará isto:

84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer 84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

Co paquete OmegaT.app para Mac OS X, faga dobre clic no JavaApplicationStub situado en /OmegaT.app/Contents/MacOS/ (vexa máis arriba como acceder a el) para iniciar OmegaT desde unha consola e ter acceso inmediato ao log.