词汇表是用于 OmegaT 的文件,它由用户手工创建和更新。
如果某个 OmegaT 项目包含一个或多个词汇表文件,当前片段中出现的任何术语将自动显示在词汇表查看器中。
要使用现有的词汇表,只需在创建项目后将它放到 /glossary
目录下。在打开项目时,OmegaT 自动检测该目录下的词汇表文件。从词汇表中找到当前片段中的术语后,OmegaT 将会在词汇表窗格将它们显示出来。
等号之前的单词是源术语,其翻译在等号(=)之后。词条可以有附加的注释(参阅“及物动词”了解第二项)。词汇表功能只能找到与词汇表条目精确匹配的词汇(也就是说不会找到变化的词形)。在翻译过程中可以手动向词汇表中增加术语(比如在文本编辑器中),但是只有在重新导入项目后才能识别新增的术语。
源术语可以不是一个单词,例如:
加下划线的项 "new preview screenshot" 由三个单词组成,在词汇表窗格中可以看到翻译为 "nov predogled posnetka zaslona"。注意,还能识别多术语项中的部分(比如上面例子中的 "preview",也显示了它的翻译 "predogled"),但优先级较低。
词汇表文件是简单的纯文本文件,包含了以制表符分隔的三列列表,其中第一和第二列分别对应源词汇和目标术语。第三列用来保存附加信息。词汇表文件可以使用系统缺省的编码方式(以扩展名 .tab 表示),或者 UTF-8(扩展名 .utf8)。出于显而易见的理由,Unicode 编码 (UTF8) 是首选。
还支持 CSV 格式。该格式和 TAB 分隔的相同:源术语,目标术语。注释字段使用逗号 ',' 分隔开来。字符串需要括在引号 " 里面,这样可以在字符串中使用逗号:
"This is a source term, which contains a comma","c'est un
terme, qui contient une virgule"
除了纯文本,还支持 TBX 格式。TBX(Term Base eXchange)是用于交换结构化术语数据的开放的基于 XML 标准,已经被 LISA 和 ISO 批准为国际标准。如果您已经有术语管理系统(例如 MultiTerm),那么它很可能提供了导出 TBX 格式术语数据的功能。微软术语集 可以下载将近 100 种语言的术语,它可以作为 IT 词汇表的基础。
如果遵循合理的谨慎态度,下面的方法是万无一失的。您需要 OpenOffice.org Writer 来完成操作,因此如果您没有该软件,请下载并安装 OpenOffice.org 。启动 OpenOffice.org 并打开一个新的文本文档或启动 "OpenOffice.org Writer"。
在空文档中按照下列方式录入术语:术语原文,TAB间隔,术语的目标语言的翻译,TAB间隔,该词条的注释或解释,回车符。TAB间隔是键盘左边的跳格键。如果不想输入注释,可以省去第二个 TAB 间隔。"术语"可以是一个单词或一条短语。在第二行,输入第二条术语及其翻译。
在完成术语录入工作后,您将有两“列”术语,左边的术语原文,其目标语言的翻译在右边,可能还会有包括注释和解释的第三列,在 Writer 软件的标准书写条点击 ¶ 图标可以让 TAB 间隔(下例中的 → )和回车符 (¶ ) 变得可见。下面是几行英语-德语词汇表:
word →Wort→das (-/e/s, Wörter/-e)¶
small house→Häuschen→das, (pl Häuschen)¶
dog →Hund→m, f Hündin ¶
horse→Pferd→n, m Hengst f Stute n Fohlen¶
请勿使用 OpenOffice.org 的 "列" 功能创建术语表的列:仅需在原文-目标语言术语对之间使用一个 TAB 间隔。
在完成词条的录入后,把文件保存为 Unicode 编码,例如:
选择File >另存为
在“文件位置”框中输入词汇表文件的名称。
在“过滤器中”选择“Text Encoded (.txt.)”
确保未选中“自动文件名扩展”和“编辑过滤器设置”。
点击“确定”确认。
创建 OmegaT 项目之后,将该文件复制或移动到项目的 \glossary 目录中。如果项目已经打开,复制词汇文件后重新加载项目。可以对正被项目使用的词汇表文件进行修改。词汇表修改大约每秒钟就会被检测一次,且修改会在后台透明地被加载,因此在保存新词汇表文件之后无需重新加载项目文件。
当包含了源文本术语的片段被打开后,词汇表窗格将显示出源片段中可在词汇表中找到的词条(或者多个词条——可以有多个词汇表保存在 glossary 的子目录中)。
请注意:还有其他创建含 TAB 分隔条目的简单文件的方法,并且许多比上面建议做法更简单。例如,有种方法是导出上面的内容为 CSV
来代替 UTF8
文本文件。需要提示的一点是上面的建议适用于任意系统,包括 Windows、OS X 或 Linux。例如没人会反对在 Windows 上使用 Notepad++ 或在 Linux 上使用 GEdit:可以使用任何能处理 UTF8 和显示空格(这样就不会遗漏必须的
TAB 字符)的文本编辑器。
词汇表文件的内容会存放到内存中,在打开或重新载入项目时加载它们。因此更新词汇表文件非常简单:
让文件在您喜欢的编辑器中保持打开状态
当遇到想要添加到词汇表中的新术语时,输入新的术语及其翻译和注释(确保在字段间使用了 TAB)并保存文件。因此词汇表窗格的内容将会被更新。
在 Trados MultiTerm 导出的数据可以不加修改地用作 OmegaT 词汇表,只需以 .tab
为扩展名,并让对应的源词汇和目标术语分别为头两个字段。
如果使用 "Tab-delimited export" 系统选项导出,您必须删除头 5 列(包括编号, 创建日期等等)。新版本的 MultiTerm 支持导出为 TBX 格式。