Effective Parallel Corpus Mining using Bilingual Sentence Embeddings
方法
bilinggual sentence embedding model:为相互翻译的句子生成相似的表示以搜索互相翻译的句子。
translation candidate ranking task:用于模型训练
hard negative sentence pairs:具有语义相似但不是翻译句子
translation Candidates ranking Task
给定翻译句子,x,y。对于x,在候选翻译列表中找到y。P(y|x)的概率最大。
采样K-1个负例
定义φ为 source和target句向量的点积。
Bilingual sentence embeddings
矩阵batch形式的表示,正确的翻译概率在对角线上。
初步的模型采用随机抽样的策略,抽取K-1的负样本
Semantically Similar Hard Negatives
通用引入hard negatives(语义上相似,与正确译文相近但不完全相同)增加模型训练难度。
hard negatives的选择使用随机抽样的baseline model生成,识别M个与原句有较高点积分数却不是正确翻译的句子作为hard negatives。
将hard negatives附加在target embedding 矩阵V上,因此K个候选,变为K+K*M,实践中,只对20%的数据进行hard negatives。
Miniing Parallel Data
Document Matching
搜索source document每个句子的相似target句子集合Y
不能直接采用相似模型的点积结果来作为置信度,因为没有单一的阈值来过滤不好的结果。
Calibrated Confidence Score
对于置信度的计算采用点积结果的动态缩放和偏移(scaling and shifting)最终的点积结果,传递给sigmoid来获得一个置信值。