当前位置：首页 > news >正文

如何在训练数据里修复embedding相似度计算的badcase

news 2026/4/28 3:12:18

训练阶段用
emb1 = model(input_text1)
emb2 = model(input_text2)

然后

cosine(emb1,emb2)

计算相似度的方式训练embedding，

现在推理阶段，有个input_text3和input_text4输入model，计算相似度不正确，我该如何在训练数据里修复这一个badcase，再重训模型？

其实embedding的badcase和修复文本分类问题的原理是一样的：

1，有针对性的训练样本，加入到你的训练数据中：("input_text3", "input_text4", label)

2，用input_text3和input_text4检索出训练数据中最相似的那批数据(left_text, right_text)，修正label

http://www.jsqmd.com/news/711770/

相关文章：

音乐标签编码终极解决方案：Music Tag Web繁简转换完整指南

从笔记到收藏，碎片信息管理终极指南（含 3 款收藏工具），一篇搞定

2026全容积式蒸汽发生器厂家怎么选？标杆推荐与选型推荐 - 优质品牌商家

攻防进行时_红蓝对抗干货早知道！

量子操作与完全正性：量子信息处理的核心原理

MCP for Unity：AI驱动Unity开发，自然语言操控编辑器

有史以来最高阶次为11000的全球重力场组合模型（WHU-CASM-UGM2025）

CAS 失败后怎么办——从暴力自旋到自适应退避，无锁重试策略的四代进化

系统启动恢复工具boot-resume：从原理到实战的完整指南

手机就是开发终端：Telegram + OpenCode 实现随时随地写代码（5分钟搭建：用 Telegram 接管 OpenCode，实现真正的移动办公）

加密点火密钥(CIK)技术解析与应用实践

原创漏洞｜DAQExpress工程文件反序列化提权漏洞分析

OpenClaw共生未来——“记忆经济”、联邦记忆与碳硅文明的意识纠缠（第十六篇）

为什么你的AI服务被反向注入？Docker Sandbox权限逃逸检测与防御（含实时POC检测脚本）

B站缓存视频合并终极指南：一键导出完整MP4并保留弹幕

大型语言模型真实上下文窗口测试与优化策略

（六）文件与搜索 - 信息处理的正确姿势

PageObject模式实战案例

突破性自托管游戏串流：Sunshine实战配置与性能优化深度解析

全网最全网安合规资源站汇总，从入门到挖洞收藏这篇就够

终极惠普OMEN游戏本性能优化指南：OmenSuperHub开源工具完全解析

AI智能体协作失控？15条规则打造可靠AI编程助手

CnOpenData 税收调查企业发明专利授权质量统计表

反向海淘爆发期，taocarts如何用技术破解代购供应链对接难题

Parler TTS低资源语言适配实战：从数据准备到模型部署

Pyodide包管理完全指南：在浏览器中运行Python生态系统的终极方案

Cosbench分布式压测集群搭建踩坑实录：多Driver配置与防火墙那些事儿

猫抓插件终极指南：如何免费下载网页视频音频资源

乐山临江鳝丝优质门店推荐榜非遗传承领衔 - 优质品牌商家

WASM插件在Docker边缘集群中无法加载？5个致命错误诊断清单，含内核级调试命令速查表