Модуль морфологического поиска (называемый также алгоритмом выделения корней) используется для улучшения нахождения совпадений за счёт выделения в исходных сегментах и переводе склоняемых слов. Также модуль улучшает поиск в глоссарии.
Например, модуль морфологического поиска для английского языка определит, что строка «cats» (и, возможно, «catlike», «catty» и т. д.) имеет корень «cat», а «stemmer», «stemming», «stemmed» образованы от «stem». Алгоритм выделит в словах «fishing», «fished», «fish», и «fisher» общий корень «fish». Этот модуль особенно полезен для языков, в которых активно используются приставки, суффиксы и окончания. В качестве примера рассмотрим склонение слова «хороший» в словенском языке:
lep, lepa, lepo — единственное число, мужской, женский и средний род
lepši, lepša, lepše . — сравнительная степень, именительный падеж, мужской, женский и средний род соответственно. Во множественном числе:
najlepših — превосходная степень, множественное число, родительный падеж, мужской, женский и средний род.
Модуль «Tokenizer», адаптированный для ОмегаТ из проекта Lucene можно загрузить с официального сайта модулей ОмегаТ (http://sourceforge.net/projects/omegat-plugins/files/). Загрузите самую новую версию (OmegaT-tokenizers_0.4_2-2.1.zip на момент написания этого руководства).
Для установки, в главном каталоге ОмегаТ (каталоге, содержащем OmegaT.jar) создайте подкаталог «plugins» и распакуйте в него архив с модулем.
Для запуска ОмегаТ с модулем «Tokenizer» необходимо указать алгоритмы выделения корней для исходного языка и языка перевода. Команда запуска должна выглядеть так:
java -jar OmegaT.jar --ITokenizer=[алгоритм для языка исходных файлов] --ITokenizerTarget=[алгоритм для языка переведённых
файлов]
Названия алгоритмов для различных языков приведены в файле «Readme.txt», распространяемом в архиве, вместе с самим модулем. Например, если вы хотите использовать алгоритм Lucene CJK для исходного текста и Lucene French для переведённого текста, команда запуска должна выглядеть примерно так:
java -jar OmegaT.jar
--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer
--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Если вы хотите использовать модуль морфологического поиска в ОмегаТ, запущенной на Mac OS X, следуйте приведённым выше инструкциям
(чтобы узнать расположение OmegaT.jar, щёлкните правой кнопкой мыши по OmegaT.app), с той лишь разницей, что названия алгоритмов
следует указывать в файле info.plist
, который содержит опции запуска Java. Откройте info.plist
и отредактируйте его нужным образом. Вот как этот файл должен выглядеть для примера выше:
<key>VMOptions</key>
<string>-Xmx1024M</string>
<key>Arguments</key>
<array>
<string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneCJKTokenizer</string>
<string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>
Чтобы убедится, что алгоритмы для обоих языков заданы правильно, запустите ОмегаТ из командной строки, откройте проект и посмотрите на сообщения, которые появятся в окне терминала. Для вышеприведённого примера они должны выглядеть так:
84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneCJKTokenizer
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
Цифры слева скорее всего будут отличаться, главное убедиться в том, что заданные имена алгоритмов для исходного и переведённого текстов совпадают с именами, появившимися в окне терминала. Если алгоритмы указаны неправильно, сообщения будут выглядеть примерно так:
12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer
Для запуска ОмегаТ из командной строки в Mac OS X, дважды щёлкните мышью по файлу JavaApplicationStub
, расположенному в «/OmegaT.app/Contents/MacOS/».