Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.
Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:
lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod
lepši, lepša, lepše - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména
najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.
Balíček tokenizeru, který vychází z projektu Lucene je distribuován jako plugin pro OmegaT na adrese http://sourceforge.net/projects/omegat-plugins/files/. Stáhněte si nejaktuálnější soubory (v době psaní tohoto textu je nejnovější verze OmegaT-tokenizers_0.4_2-2.1.zip)
Pro instalaci tokenizeru vytvořte v adresáři, kde je instalován soubor OmegaT.jar, adresář s názvem „plugins“ a do tohoto nového adresáře rozbalte nahoře zmíněný zip archiv.
Aby bylo možno spouštět OmegaT s tokenizerem, potřebujete specifikovat, který tokenizer budete používat pro zdrojový jazyk, a který tokenizer budete používat pro jazyk překladu. Syntax takového příkazu je následující:
java -jar OmegaT.jar --ITokenizer=[jméno tokenizeru pro zdrojový jazyk] --ITokenizerTarget=[jméno tokenizeru pro jazyk překladu]
Jména tokenizerů jsou zadána v souboru Readme.txt, který se stáhne současně se soubory tokenizeru. Například, pokud budete chtít použít tokenizer Lucene CJK pro zdrojový jazyk a tokenzer Lucene French pro jazyk překladu, váš příkaz pro spuštění bude vypadat takto:
java -jar OmegaT.jar
--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer
--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Pokud chcete používat tokenizery s balíčkem Mac OS X OmegaT.app, tak platí instalace popsaná nahoře (umístění OmegaT.jar naleznete
tak, že kliknete pravým tlačítkem myši na OmegaT.app), ale budete muset specifikovat názvy tokenizerů v souboru info.plist
který obsahuje možnosti spouštění Javy. Následujte výše uvedené pokyny ke zpracování souboru info.plist
a upravte jej tak, aby pro výše uvedený příklad vypadal následovně:
<key>VMOptions</key>
<string>-Xmx1024M</string>
<key>Arguments</key>
<array>
<string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
<string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>
Abyste se ujistili, že tokenizery se používají, otevřete projekt a přes příkazový řádek zkontrolujte informace v logu (v protokolu příkazového řádku). S výše zmíněným příkladem by to mělo vypadat takto:
84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Číslice vlevo asi budou na vašem systému odlišné, ale hlavně se ujistěte, že názvy tokenizerů pro zdroj a překlad, které specifikujete v možnostech spouštění, odpovídají tomu, co najdete v logu. Pokud tokenizery nejsou správně spuštěny, protokol (tzv. ‚log‘) bude vypadat podobně:
12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer
S balíčkem Mac OS X OmegaT.app, budete muset dvakrát kliknout na soubor JavaApplicationStub
, který najdete v /OmegaT.app/Contents/MacOS/ (přístup je popsán výše), a spustíte tak OmegaT z příkazového řádku a máte tak
přímý přístup k logu.