如何在训练数据里修复embedding相似度计算的badcase
训练阶段用emb1 = model(input_text1)emb2 = model(input_text2)
然后
cosine(emb1,emb2)
计算相似度的方式训练embedding,
现在推理阶段,有个input_text3和input_text4输入model,计算相似度不正确,我该如何在训练数据里修复这一个badcase,再重训模型?
其实embedding的badcase和修复文本分类问题的原理是一样的:
1,有针对性的训练样本,加入到你的训练数据中:("input_text3", "input_text4", label)
2,用input_text3和input_text4检索出训练数据中最相似的那批数据(left_text, right_text),修正label
