当前位置: 首页 > news >正文

非对称量化:减少 97% 存储空间,近无损实现后期交互检索!

本节内容

包括量化、为何采用非对称量化、评分技巧、检索质量以及这将带来什么改变等方面。

量化:让多向量存储切实可行

量化是用低精度值表示高精度浮点向量,目标是减少数据负载大小并保持排序质量。简单后期交互检索成本高,多向量表示未压缩时大小约为单向量的 33 倍。使用二进制文档向量,多向量文档仅比单向量大 2% 左右,有助于改变权衡关系,使后期交互检索更可行。

为何采用非对称量化

压缩文档向量可节省存储空间等,而压缩查询向量效果不大。不将双方都二值化是因为全二进制检索会使查询向量丢弃幅度信息,导致更多质量损失。所以将查询向量保持为 int8,文档向量存储为二进制符号。

评分技巧

二进制文档向量存储成本低。int8 x int8 评分有现代 ARM CPU 支持,int8 x 二进制评分有更简单的恒等式,评分无需对每个维度进行完整乘法运算。二进制 x 二进制计算成本低,但质量损失大。

检索质量

在内部检索基准测试套件中评估了几种精度组合。全精度基准 NDCG@10 平均值为 90.26,int8 查询二进制文档平均值为 89.65,下降 0.61 个点,同时文档向量存储空间减少 32 倍。部分性能下降极小是因为 Wholembed v3 对量化有较强鲁棒性。还给出了不同精度组合的中位延迟和加速比等数据。

这将带来什么改变

非对称量化有效是因为检索系统对查询和文档精度成本考量不同。对于 silo,可降低存储成本、加快冷启动速度、提高每秒查询率、减少数据移动时间,能在不将文档视为大型 fp32 对象的情况下获得多向量表示的高质量。

http://www.jsqmd.com/news/1113251/

相关文章:

  • 网站爬虫与数据采集怎么做?(保姆级教程)
  • 抢占AI时代的“数字户口”——丹东来客GEO全域AI引擎系统,重塑企业智能时代的品牌话语权
  • 基于 RPA 架构的企业微信外部群自动化:底层原理、API 设计与多群同步实战
  • 【VibeCoding系列】大型 AI 编程项目工程化治理全栈指南:Claude Code + 国产模型 + Windows 万级文件场景下的上下文、幻觉、一致性终极解决方案
  • 人教版新课标一年级语文上册期中复习试卷A共3页Word版【编号3】
  • 如你所见 ⬇️
  • 2026年天水工厂设备回收:揭秘行业独家秘籍
  • Dify 与 Chatbox、Anything LLM API
  • Nginx生产环境安全加固实战:从协议到配置的全面防护指南
  • 基于Node.js的AI微信答疑小程序开发指南
  • 相位噪声——这把“隐形尺“怎样悄悄拖垮雷达测距与通信解调
  • 2026无水印免费AI抠图工具合集:电脑手机网页离线软件完整使用指南
  • 在东莞寻找专业的车顶胶公司,哪家技术过硬口碑更值得信赖?
  • RustMinidb:用 Rust 打造轻量级嵌入式数据库,单文件存储 + 原生REST API,IoT和边缘计算
  • 【学习记录】Week8(三):从整数漏洞到堆溢出——深入理解内存破坏的进阶利用链
  • 电脑录制视频快捷键大全!7种方法一键开启录制,搞定高清录屏
  • 小企业AI落地实战:从痛点诊断到自动化的5步闭环
  • 网站加密证书
  • Autoswagger与Nuclei集成:自动化API安全检测实践指南
  • Java国密SM2算法实战:从Bouncy Castle集成到加解密签名完整实现
  • 软考继续教育学分认证全流程拆解(从选课→学习→考核→上传→审核→入库,一步不卡壳)
  • 代码大模型选型实战指南:任务类型×语言生态×工程上下文三维诊断
  • 你的直播素材录制为什么总是模糊?
  • ML模型服务化实战:生产稳定性与可观测性落地指南
  • Python AES加密实战:从原理到实现,打造安全可靠的加密工具
  • Illustrative Visualization – New Technology or Useless Tautology
  • Python实现AES、DES、ChaCha20对称加密算法实战指南
  • 三步破解学术加密文档:从KDH/NH到可编辑PDF的完整方案
  • 直播推流协议怎么选?RTMP、WebRTC与RTC连麦的区别与选型逻辑
  • 【ubuntu】Ubuntu20排查 Wi-Fi 和蓝牙同时消失的经验总结