当前位置: 首页 > news >正文

如何在训练数据里修复embedding相似度计算的badcase

训练阶段用
emb1 = model(input_text1)
emb2 = model(input_text2)

然后

cosine(emb1,emb2)

计算相似度的方式训练embedding,

现在推理阶段,有个input_text3input_text4输入model,计算相似度不正确,我该如何在训练数据里修复这一个badcase,再重训模型?

其实embedding的badcase和修复文本分类问题的原理是一样的:

1,有针对性的训练样本,加入到你的训练数据中:("input_text3", "input_text4", label)

2,用input_text3input_text4检索出训练数据中最相似的那批数据(left_text, right_text),修正label

http://www.jsqmd.com/news/711770/

相关文章:

  • 音乐标签编码终极解决方案:Music Tag Web繁简转换完整指南
  • 从笔记到收藏,碎片信息管理终极指南(含 3 款收藏工具),一篇搞定
  • 2026全容积式蒸汽发生器厂家怎么选?标杆推荐与选型推荐 - 优质品牌商家
  • 攻防进行时_红蓝对抗干货早知道!
  • 量子操作与完全正性:量子信息处理的核心原理
  • MCP for Unity:AI驱动Unity开发,自然语言操控编辑器
  • 有史以来最高阶次为11000的全球重力场组合模型(WHU-CASM-UGM2025)
  • CAS 失败后怎么办——从暴力自旋到自适应退避,无锁重试策略的四代进化
  • 系统启动恢复工具boot-resume:从原理到实战的完整指南
  • 手机就是开发终端:Telegram + OpenCode 实现随时随地写代码(5分钟搭建:用 Telegram 接管 OpenCode,实现真正的移动办公)
  • 加密点火密钥(CIK)技术解析与应用实践
  • 原创漏洞|DAQExpress工程文件反序列化提权漏洞分析
  • OpenClaw共生未来——“记忆经济”、联邦记忆与碳硅文明的意识纠缠(第十六篇)
  • 为什么你的AI服务被反向注入?Docker Sandbox权限逃逸检测与防御(含实时POC检测脚本)
  • B站缓存视频合并终极指南:一键导出完整MP4并保留弹幕
  • 大型语言模型真实上下文窗口测试与优化策略
  • (六)文件与搜索 - 信息处理的正确姿势
  • PageObject模式实战案例
  • 突破性自托管游戏串流:Sunshine实战配置与性能优化深度解析
  • 全网最全网安合规资源站汇总,从入门到挖洞收藏这篇就够
  • 终极惠普OMEN游戏本性能优化指南:OmenSuperHub开源工具完全解析
  • AI智能体协作失控?15条规则打造可靠AI编程助手
  • CnOpenData 税收调查企业发明专利授权质量统计表
  • 反向海淘爆发期,taocarts如何用技术破解代购供应链对接难题
  • Parler TTS低资源语言适配实战:从数据准备到模型部署
  • Pyodide包管理完全指南:在浏览器中运行Python生态系统的终极方案
  • Cosbench分布式压测集群搭建踩坑实录:多Driver配置与防火墙那些事儿
  • 猫抓插件终极指南:如何免费下载网页视频音频资源
  • 乐山临江鳝丝优质门店推荐榜 非遗传承领衔 - 优质品牌商家
  • WASM插件在Docker边缘集群中无法加载?5个致命错误诊断清单,含内核级调试命令速查表