Le cercatores del stirpe meliora le qualitate de concordantias con le recognition del parolas declinate in le datos del memoria primari e in le traduction. Illos meliora alsi la concordantia del glossario.
Un cercator del stirpe pro le anglese deberea identificar, exempli gratia, le linea de character "cats" (e possibilemente "catlike", "catty" etc.) como basate sur le mesme radice "cat", e "stemmer", "stemming", "stemmed" como basate sur "stem". Un algorithmo de cerca del stirpe reduce le parolas "fishing", "fished", "fish", e "fisher" al radice, "fish". Isto es in modo special utile in caso de linguas que usa formas con prefixo e suffixo pro le parolas stirpe. Faciente se prestar un exemplo ex le sloveno, ci "bon" in omne possibile formas grammaticamente correcte:
lep, lepa, lepo - singular, masculin, feminin, neutral
lepši, lepša, lepše . - comparative, nominative, masculin, feminin, neutral, resp. Forma plural del adjective
najlepših - superlative, plural, genitive pro M, F, N
Un pacchetto tokenizer conformate a partir del projecto Lucene es distribuite quam un plug-in OmegaT al ligamine http://sourceforge.net/projects/omegat-plugins/files/. Discarga le plus recente files (OmegaT-tokenizers_0.4_2-2.1.zip al tempore de iste scriptura).
Pro installar le tokenizer, crea un plica con le nomine "plugins" in le plica ubi OmegaT.jar is trovate e dispacchetta le files precedente intra celle plica.
Pro exequer OmegaT con le tokenizer tu necessita specificar qual tokenizer tu usara pro le lingua fonte e qual tokenizer tu usara pro le lingua de destination. Le syntaxe es como seque:
java -jar OmegaT.jar --ITokenizer=[source language
tokenizer name] --ITokenizerTarget=[target language tokenizer
name]
Le nomines del tokenizer es date in le file Readme.txt distribuite con le files tokenizer. Per exemplo, si tu desira usar le Lucene CJK tokenizer in le fonte e le Lucene French tokenizer in le destination, tu commando habera un aspecto como isto:
java -jar OmegaT.jar
--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer
--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Si tu desira usar le tokenizers con le pacchetto OmegaT.app de Mac OS X, le installation de tokenizer describite supra se
refere (Clicca con le dextero sur OmegaT.app pro trovar le ubication de OmegaT.jar), sed tu debera specificar le nomines del
tokenizer in le info.plist
que contine le optiones de lanceamento de Java. Seque le instructiones precedente pro acceder le file info.plist
e modifica los de maniera que Seque pro le exemplo que justo dava:
<key>VMOptions</key>
<string>-Xmx1024M</string>
<key>Arguments</key>
<array>
<string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
<string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>
Pro assecurar se que le tokenizers es usate, aperi un projecto e controla le bloco del information ab le consola. Con le exemplo precedente illo deberea haber un aspecto simile a isso:
84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Le numeros al leva es probabilemente differente sur tu systema assi assecura te que le nomines del tokenizer fonte e destination, specificate in le optiones de initio, corresponde a illos que monstra le bloco. Si le tokenizers non es debitemente lanceate, le bloco habera un aspecto simile a isto:
12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer
Con le pacchetto OmegaT.app de Mac OS X, clicca duo vices sur le JavaApplicationStub
ubicate in /OmegaT.app/Contents/MacOS/ (vide supra pro acceder illo) pro lancear OmegaT ab le consola e obtene accesso immediate
al bloco.