关键词:
神经机器翻译
电气工程领域
术语信息
嵌入层参数
预训练层
编码器
摘要:
目前对于特定专业领域内英汉机器翻译的研究常常受到语料资源少,获取困难,权威性专业性不足的限制,给各专业领域内机器翻译的发展带来了极大的阻力。针对电气工程领域文本特点,本文基于注意力机制的神经机器翻译模型,提出使用不同的嵌入层参数初始化方法,并改进了模型的结构,以此来提高模型在电气工程领域上的翻译效果。本文主要工作如下:1.提出不同的嵌入层参数初始化方法。针对电气工程领域英汉机器翻译中平行语料稀缺的问题,在使用通用语料训练翻译模型的基础上,提出了一种融合领域术语信息的嵌入层参数初始化方法。首先,对文本进行分词预处理将术语词划分为一个最小单元;然后,利用Glove和Word2vec在不同单语语料上训练得到两种词向量并分别初始化嵌入层参数中常用词和术语词的向量表示;最后利用术语词典对未登录词进行查找替换,缓解了翻译过程中由于术语而产生的严重未登录词问题。将基于注意力机制的神经机器翻译模型作为基线模型进行实验,结果表明:改进后的模型在电气领域测试语料上的翻译性能提高了2.713个BLEU值点。2.提出了一种增强源语言表示的编码器改进方法。低资源下,用预训练的词嵌入初始化端到端模型的编码器嵌入层是神经机器翻译增强源语言表示的实用技巧。通常的做法是使用在大规模通用单语语料上训练得到的词向量初始化RNN神经机器翻译模型的嵌入层。然而,对于特定的电气领域翻译任务来说,以此训练得到的词嵌入缺乏针对性,容易导致翻译结果出现语言歧义,专业词汇错漏等问题。因此,本文改进了模型的编码器设计,通过添加预训练层及残差机制使得模型可以基于本领域双语训练语料学习得到更好的源语言表示。并分别使用四种不同的网络结构作为其中的预训练层进行实验,结果表明模型在电气领域中的翻译性能提升了0.539~1.94 BLEU。