Effective Parallel Corpus Mining using Bilingual Sentence Embeddings

方法

bilinggual sentence embedding model:为相互翻译的句子生成相似的表示以搜索互相翻译的句子。
translation candidate ranking task:用于模型训练
hard negative sentence pairs:具有语义相似但不是翻译句子

translation Candidates ranking Task

给定翻译句子,x,y。对于x,在候选翻译列表中找到y。P(y|x)的概率最大。

采样K-1个负例

定义φ为 source和target句向量的点积。

Bilingual sentence embeddings


矩阵batch形式的表示,正确的翻译概率在对角线上。

初步的模型采用随机抽样的策略,抽取K-1的负样本

Semantically Similar Hard Negatives

通用引入hard negatives(语义上相似,与正确译文相近但不完全相同)增加模型训练难度。
hard negatives的选择使用随机抽样的baseline model生成,识别M个与原句有较高点积分数却不是正确翻译的句子作为hard negatives。
将hard negatives附加在target embedding 矩阵V上,因此K个候选,变为K+K*M,实践中,只对20%的数据进行hard negatives。

Miniing Parallel Data

Document Matching

搜索source document每个句子的相似target句子集合Y

不能直接采用相似模型的点积结果来作为置信度,因为没有单一的阈值来过滤不好的结果。

Calibrated Confidence Score

对于置信度的计算采用点积结果的动态缩放和偏移(scaling and shifting)最终的点积结果,传递给sigmoid来获得一个置信值。

End

本文标题:google-平行语料挖掘(embedding)

本文链接:http://tzer.top/archives/465.html

除非另有说明,本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

声明:转载请注明文章来源。

最后修改:2022 年 05 月 18 日
如果觉得我的文章对你有用,请随意赞赏