Non-Parametric Adaptation for Neural Machine Translation

作者提出了一个半参数方法,使MT新的domains上无需参数更新,依赖n-gram检索获得好的效果。

  1. 检索相似n-gram样本:基于IDF和dense vector
  2. 设计了新的架构编码source-target信息。让模型能够区分噪音,进行了消融分析

模型在异构数据,稀有短语的翻译能力弱,而微调会有灾难性遗忘问题,所以非参数方法就比较重要。作者说其他的检索方法有效可能是领域的狭窄导致翻译过渡依赖检索。

检索的目的是为了提高翻译质量,最大化句子相似度和翻译性能之间的影响还需要进一步实验。

检索方法

IDF句子检索

IDF N-gram检索

$X=(t^1,...t^T)$ 为了避免表示句子n-gram的数量

考虑重复,如果一个句子已经添加到检索集,要找下一个相似的句子。

每个句子检索到的邻居数量和长度成正比

N-gram向量

n-gram subword 的那部分求平均

新架构

架构

CSTM

其中Conditional Source Target Memory生成采用如下方法:

CSTM介绍:

模型效果

End

本文标题:n-gram检索domain Adaptation: Non-Parametric Adaptation for Neural Machine Translation

本文链接:http://tzer.top/archives/454.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2022 年 04 月 14 日
如果觉得我的文章对你有用,请随意赞赏