I tokenizer (o stemmer) migliorano la qualità delle concordanze tramite il riconoscimento delle parole flesse, sia nei file di partenza, sia nelle memorie di traduzione. Migliorano anche le concordanze nel glossario.
Uno stemmer applicato all'Inglese, ad esempio, deve riconoscere la stringa "cats" (e possibilmente "catlike", "catty", e via discorrendo) basandosi sulla radice (tema) "cat", e "stemmer", "stemming", "stemmed" basandosi su "stem". L'algoritmo di riconoscimento della radice riduce le parole "fishing", "fished", "fish" e "fisher" al tema radice, ossia "fish". Ciò è particolarmente utile nei casi di lingue che utilizzano forme prefissali e suffissali sui temi. Mutuando un esempio dallo Sloveno, di seguito l'aggettivo "buono" in tutte le forme grammaticalmente corrette possibili:
lep, lepa, lepo - singolare, maschile (M), femminile (F), neutro (N)
lepši, lepša, lepše . - comparativo, nominativo, maschile, femminile, neutro, a confronto con la forma plurale dell'aggettivo
najlepših - superlativo, plurale, genitivo per M,F,N
In OmegaT viene distribuito il plugin di un tokenizer adattato dal progetto Lucene, scaricabile in http://sourceforge.net/projects/omegat-plugins/files/. Scaricare il file più recente (al momento della scrittura di questa guida, è OmegaT-tokenizers_0.4_2-2.1.zip).
Per installare il tokenizer, creare una cartella di nome "plugins" all'interno della cartella in cui risiede OmegaT.jar e decomprimere i file al suo interno.
Per far funzionare OmegaT col tokenizer, deve essere specificato quale tokenizer verrà utilizzato per la lingua di partenza e quale per quella di destinazione. La sintassi è la seguente:
java -jar OmegaT.jar --ITokenizer=[nome tokenizer lingua di partenza] --ITokenizerTarget=[nome tokenizer lingua di destinazione]
I nomi dei tokenizer sono indicati nel file Readme.txt distribuito con i file del tokenizer. Per esempio, se si desidera utilizzare il tokenizer Lucene CJK per la lingua di partenza e quello Lucene French per quella di destinazione, il comando dovrà essere:
java -jar OmegaT.jar
--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer
--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Per utilizzare i tokenizer col pacchetto OmegaT.app di Mac OS X, è valida la procedura descritta sopra (clic col tasto destro
del mouse su OmegaT.app per individuare la posizione di OmegaT.jar), ma sarà necessario anche specificare i nomi dei tokenizer
nel file info.plist
, che contiene le opzioni di avvio per Java. Seguire le istruzioni sopra riportate per avere accesso al file info.plist
e modificarlo in modo che assomigli all'esempio che abbiamo appena fornito:
<key>VMOptions</key>
<string>-Xmx1024M</string>
<key>Arguments</key>
<array>
<string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
<string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>
Per verificare che i tokenizer siano utilizzati, aprire un progetto e controllare le informazioni del registro fornite dalla console. In base all'esempio citato sopra, le informazioni dovrebbero apparire così:
84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
I numeri sulla sinistra possono risultare diversi a seconda del sistema, perciò verificare che i nomi dei tokenizer di partenza e destinazione, specificati nelle opzioni di avvio, corrispondano a ciò che il registro mostra. Se i tokenizer non vengono avviati correttamente, il registro apparirà in questo modo:
12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer
Col pacchetto OmegaT.app per Mac OS X è necessario fare doppio clic su JavaApplicationStub
che si trova in /OmegaT.app/Contents/MacOS/ (per accedervi, si veda sopra), per avviare OmegaT dalla console e ottenere accesso
immediato al registro.