付録D トークナイザー プラグイン

1. はじめに
2. インストールとコマンドラインの使い方
3. Mac OS X での使い方
4. トラブルシューティング

1. はじめに

トークナイザー(またはステマー)は、原文および翻訳メモリデータ内の単語の語尾変化を認識することによって、参考訳文の照合精度を改善します。また用語集の照合精度も改善します。

英語用のステマー(訳注:単語から接尾辞などを取り除く処理をステミングと呼ぶことから)を例にとってみましょう。「cats」という文字列(「catlike」や「catty」でもよいですが)は、「cat」を語幹としています。同様に「stemmer」や「stemming」、「stemmed」は「stem」を語幹としています。ステミングのアルゴリズムは、「fishing」や「fished」、「fish」、「fisher」などの単語を、語幹の「fish」という単語に収斂します。この処理は、語尾や語頭の変化形を持つ言語を扱う場合に、とても役立ちます。スロベニア語から例を拝借すると、「良い」という意味の単語は、文法的にまったく正しく次の変化形を取ります:

  • lep, lepa, lepo - 単数形、男性形、女性形、中性形

  • lepši, lepša, lepše . - 比較級、主格、男性形、女性形、中性形、それぞれに形容詞の複数形あり

  • najlepših - 最上級、複数形、M,F,N(男性,女性,中性)の所有格

2. インストールとコマンドラインの使い方

Lucene プロジェクトを組み込んだトークナイザーのパッケージは、OmegaT プラグインのダウンロードサイト(http://sourceforge.net/projects/omegat-plugins/files/)から入手できます。最新のファイルをダウンロードしてください(執筆時点では、OmegaT-tokenizers_0.5-2.1.zip が最新です)。

トークナイザーをインストールするには、OmegaT.jar が配置されているフォルダー配下に「plugins」という名前のフォルダーを(まだ無ければ)作成し、そのフォルダー内にパッケージを解凍します。

OmegaT で実際にトークナイザーを使うには、原文言語と訳文言語それぞれについて、どのトークナイザーを使うのかを指定する必要があります。構文は、次の通りです:

java -jar OmegaT.jar --ITokenizer=[原文言語のトークナイザー名] --ITokenizerTarget=[訳文言語のトークナイザー名]

トークナイザー名は、トークナイザーのファイルと一緒に配布される Readme.txt ファイルに一覧が記載されています。たとえば、原文言語に Lucene Japanese tokenizer を、訳文言語に Lucene French tokenizer を使う場合のコマンドは、次のようになります:

java -jar OmegaT.jar --ITokenizer=org.omegat.plugins.tokenizer.LuceneJapaneseTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

3. Mac OS X での使い方

Mac OS X の OmegaT.app パッケージでトークナイザーを使う場合、トークナイザーのインストールは上記で説明されている通りです(OmegaT.app を右クリックすれば、OmegaT.jar の場所が分かります)。ただし、使用するトークナイザー名は Java 起動オプションに含まれる info.plist で指定する必要があります。上記の説明通り、info.plist ファイルを探して編集します。先ほどの例を使うと、次のようになります:

<key>VMOptions</key>
<string>-Xmx1024M</string>

<key>Arguments</key>
<array>
  <string>--ITokenizer=org.omegat.plugins.tokenizer.LuceneJapaneseTokenizer</string>
  <string>--ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneFrenchTokenizer</string>
</array>

4. トラブルシューティング

指定したトークナイザーが本当に使われているかどうかを確認するには、プロジェクトを開き、コンソール ウィンドウに出力されるログをチェックしてください。たとえば、それはこんな風に出力されるはずです:

84528: Info: Source tokenizer: org.omegat.plugins.tokenizer.LuceneJapaneseTokenizer
84528: Info: Target tokenizer: org.omegat.plugins.tokenizer.LuceneFrenchTokenizer

行頭の数値はシステムによって異なりますので、気にする必要はありません。Source tokenizer と target tokenizer の名前を確認してください。起動オプションで指定した名前が、ログに表示されます。トークナイザーが正常起動しなかった場合は、次のようなログになります:

12719: Info: Source tokenizer: org.omegat.core.matching.Tokenizer
12719: Info: Target tokenizer: org.omegat.core.matching.Tokenizer

Mac OS X の OmegaT.app パッケージでログを確認するには、/OmegaT.app/Contents/MacOS/(アクセス方法は前述の通り)にある JavaApplicationStub をダブルクリックして、OmegaT をコンソールから起動します。