Приложение D. Модуль «tokenizer»

1. Введение
2. Установка и использование из командной строки
3. Особенности использования в Mac OS X
4. Если модуль не работает

1. Введение

Модуль морфологического поиска (называемый также алгоритмом выделения корней) используется для улучшения нахождения совпадений за счёт выделения в исходных сегментах и переводе склоняемых слов. Также модуль улучшает поиск в глоссарии.

Например, модуль морфологического поиска для английского языка определит, что строка «cats» (и, возможно, «catlike», «catty» и т. д.) имеет корень «cat», а «stemmer», «stemming», «stemmed» образованы от «stem». Алгоритм выделит в словах «fishing», «fished», «fish», и «fisher» общий корень «fish». Этот модуль особенно полезен для языков, в которых активно используются приставки, суффиксы и окончания. В качестве примера рассмотрим склонение слова «хороший» в словенском языке:

  • lep, lepa, lepo — единственное число, мужской, женский и средний род

  • lepši, lepša, lepše . — сравнительная степень, именительный падеж, мужской, женский и средний род соответственно. Во множественном числе:

  • najlepših — превосходная степень, множественное число, родительный падеж, мужской, женский и средний род.

2. Установка и использование из командной строки

Модуль «Tokenizer», адаптированный для ОмегаТ из проекта Lucene можно загрузить с официального сайта модулей ОмегаТ (http://sourceforge.net/projects/omegat-plugins/files/). Загрузите самую новую версию (OmegaT-tokenizers_0.4_2-2.1.zip на момент написания этого руководства).

Для установки, в главном каталоге ОмегаТ (каталоге, содержащем OmegaT.jar) создайте подкаталог «plugins» и распакуйте в него архив с модулем.

Для запуска ОмегаТ с модулем «Tokenizer» необходимо указать алгоритмы выделения корней для исходного языка и языка перевода. Команда запуска должна выглядеть так:

java -jar OmegaT.jar --ITokenizer=[алгоритм для языка исходных файлов] --ITokenizerTarget=[алгоритм для языка переведённых файлов]

Названия алгоритмов для различных языков приведены в файле «Readme.txt», распространяемом в архиве, вместе с самим модулем. Например, если вы хотите использовать алгоритм Lucene CJK для исходного текста и Lucene French для переведённого текста, команда запуска должна выглядеть примерно так:

java -jar OmegaT.jar --ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

3. Особенности использования в Mac OS X

Если вы хотите использовать модуль морфологического поиска в ОмегаТ, запущенной на Mac OS X, следуйте приведённым выше инструкциям (чтобы узнать расположение OmegaT.jar, щёлкните правой кнопкой мыши по OmegaT.app), с той лишь разницей, что названия алгоритмов следует указывать в файле info.plist, который содержит опции запуска Java. Откройте info.plist и отредактируйте его нужным образом. Вот как этот файл должен выглядеть для примера выше:


<key>VMOptions</key>
<string>-Xmx1024M</string>

<key>Arguments</key>
<array>
  <string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
  <string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>

4. Если модуль не работает

Чтобы убедится, что алгоритмы для обоих языков заданы правильно, запустите ОмегаТ из командной строки, откройте проект и посмотрите на сообщения, которые появятся в окне терминала. Для вышеприведённого примера они должны выглядеть так:


84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer 
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer 

Цифры слева скорее всего будут отличаться, главное убедиться в том, что заданные имена алгоритмов для исходного и переведённого текстов совпадают с именами, появившимися в окне терминала. Если алгоритмы указаны неправильно, сообщения будут выглядеть примерно так:


12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer 
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer 

Для запуска ОмегаТ из командной строки в Mac OS X, дважды щёлкните мышью по файлу JavaApplicationStub, расположенному в «/OmegaT.app/Contents/MacOS/».