Appendix D. Plugin Tokenizer

1. Úvod
2. Instalace a použití v prostředí příkazového řádku
3. Specifika systému Mac OS X
4. Odstraňování problémů

1. Úvod

Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.

Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:

  • lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod

  • lepši, lepša, lepše - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména

  • najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.

2. Instalace a použití v prostředí příkazového řádku

Balíček tokenizeru, který vychází z projektu Lucene je distribuován jako plugin pro OmegaT na adrese http://sourceforge.net/projects/omegat-plugins/files/. Stáhněte si nejaktuálnější soubory (v době psaní tohoto textu je nejnovější verze OmegaT-tokenizers_0.4_2-2.1.zip)

Pro instalaci tokenizeru vytvořte v adresáři, kde je instalován soubor OmegaT.jar, adresář s názvem „plugins“ a do tohoto nového adresáře rozbalte nahoře zmíněný zip archiv.

Aby bylo možno spouštět OmegaT s tokenizerem, potřebujete specifikovat, který tokenizer budete používat pro zdrojový jazyk, a který tokenizer budete používat pro jazyk překladu. Syntax takového příkazu je následující:

java -jar OmegaT.jar --ITokenizer=[jméno tokenizeru pro zdrojový jazyk] --ITokenizerTarget=[jméno tokenizeru pro jazyk překladu]

Jména tokenizerů jsou zadána v souboru Readme.txt, který se stáhne současně se soubory tokenizeru. Například, pokud budete chtít použít tokenizer Lucene CJK pro zdrojový jazyk a tokenzer Lucene French pro jazyk překladu, váš příkaz pro spuštění bude vypadat takto:

java -jar OmegaT.jar --ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

3. Specifika systému Mac OS X

Pokud chcete používat tokenizery s balíčkem Mac OS X OmegaT.app, tak platí instalace popsaná nahoře (umístění OmegaT.jar naleznete tak, že kliknete pravým tlačítkem myši na OmegaT.app), ale budete muset specifikovat názvy tokenizerů v souboru info.plist který obsahuje možnosti spouštění Javy. Následujte výše uvedené pokyny ke zpracování souboru info.plist a upravte jej tak, aby pro výše uvedený příklad vypadal následovně:


<key>VMOptions</key>
<string>-Xmx1024M</string>

<key>Arguments</key>
<array>
  <string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
  <string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>

4. Odstraňování problémů

Abyste se ujistili, že tokenizery se používají, otevřete projekt a přes příkazový řádek zkontrolujte informace v logu (v protokolu příkazového řádku). S výše zmíněným příkladem by to mělo vypadat takto:


84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer 
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer 

Číslice vlevo asi budou na vašem systému odlišné, ale hlavně se ujistěte, že názvy tokenizerů pro zdroj a překlad, které specifikujete v možnostech spouštění, odpovídají tomu, co najdete v logu. Pokud tokenizery nejsou správně spuštěny, protokol (tzv. ‚log‘) bude vypadat podobně:


12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer 
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer 

S balíčkem Mac OS X OmegaT.app, budete muset dvakrát kliknout na soubor JavaApplicationStub, který najdete v /OmegaT.app/Contents/MacOS/ (přístup je popsán výše), a spustíte tak OmegaT z příkazového řádku a máte tak přímý přístup k logu.