当前位置: 首页 > news >正文

揭秘Sherry量化算法:Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

揭秘Sherry量化算法:Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bit

Hy-MT1.5-1.8B-1.25bit是基于腾讯AngelSlim项目开发的革命性翻译模型,它通过创新的Sherry量化算法将1.8B参数模型压缩至仅440MB,同时保持接近原模型的翻译质量。这款支持33种语言的轻量级模型彻底改变了移动设备上的离线翻译体验,让普通手机也能流畅运行高性能AI翻译。

🌟 什么是1.25位量化?为何如此重要?

传统AI模型通常使用16位或32位浮点数存储参数,这使得模型体积庞大且运行缓慢。Hy-MT1.5-1.8B-1.25bit采用的1.25位量化技术是一种突破性的模型压缩方法,它将原始3.3GB的FP16模型压缩至仅440MB,体积减少87%,却几乎不损失翻译质量。

这种极致压缩带来三大核心优势:

  • 设备兼容性:普通手机也能轻松安装和运行
  • 速度提升:相比FP16模型快8倍,实现实时翻译
  • 隐私保护:完全离线运行,数据无需上传云端

🧠 Sherry量化算法:1.25位背后的创新原理

Sherry算法(已被ACL 2026接收)是实现这一突破的核心技术。它采用3:4细粒度稀疏策略:每4个模型权重中,保留3个最重要的权重并以1位({-1, +1})存储,将剩余1个权重置零。这种方法将4个权重打包成仅5位,实现了1.25位的有效位宽,同时保持了2的幂次对齐,确保硬件高效处理。

Sherry算法的工作流程:

  1. 重要性评估:智能识别并保留对翻译质量至关重要的权重
  2. 量化编码:将重要权重压缩为1位表示
  3. 稀疏化处理:战略性置零次要权重,减少存储需求
  4. 硬件优化:定制STQ内核实现完美SIMD指令集对齐

🚀 性能表现:小体积大能量

Hy-MT1.5-1.8B-1.25bit在保持超小体积的同时,翻译质量令人印象深刻。在Flores-200中译外互译基准测试中,这款仅1.8B参数的模型全面超越了许多更大规模的开源模型(如Tower-Plus-72B、Qwen3-32B)和主流商业翻译API(如Microsoft Translator、Doubao Translator)。

在Snapdragon 888设备上的测试显示,1.25位模型比FP16版本快8倍,实现了真正的实时翻译体验。即使是内存有限的普通手机,也能流畅运行高质量的离线翻译。

📱 如何体验Hy-MT1.5-1.8B-1.25bit?

安卓用户:直接使用现成Demo

项目提供了即装即用的Android演示应用,支持后台取词模式,可在手机任何应用中使用:浏览邮件、网页或聊天消息时即时翻译,无需切换应用。完全无需网络,数据不上传,一次下载永久使用。

开发者:本地部署步骤

  1. 克隆llama.cpp仓库:
git clone https://github.com/ggml-org/llama.cpp.git
  1. 切换到PR分支:
cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_0
  1. 构建llama.cpp:
pip install -r requirements.txt cmake -B build cmake --build build --config Release
  1. 下载模型:
pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit
  1. 转换并量化模型:
python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16 ./build/bin/llama-quantize model_zoo/Hy-MT1.5-1.8B-bf16.gguf model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0
  1. 运行翻译示例:
./build/bin/llama-completion --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf -p "Translate the following segment into Chinese, without additional explanation. Hello " --jinja -ngl 0 -n 64 -st

📚 技术文档与资源

  • Sherry论文(ACL 2026):详细阐述1.25位量化技术原理
  • HY-MT1.5技术报告:深入了解基础模型的训练与性能
  • AngelSlim文档:探索更多模型压缩工具与技术

📝 许可证信息

项目代码基于AngelSlim许可证开源,详细条款请参阅项目根目录下的License.txt文件。

通过创新的Sherry量化算法,Hy-MT1.5-1.8B-1.25bit为移动设备上的AI翻译树立了新标杆。这个仅440MB的模型证明,极致压缩与高性能可以并存,为AI在边缘设备上的应用开辟了新天地。无论是普通用户还是开发者,都能从中体验到新一代量化技术带来的变革性影响。

【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/917181/

相关文章:

  • 【题单】zsh
  • 87个免费Tracker服务器:让你的BT下载速度飙升300%的终极秘籍
  • 如何用一款工具彻底改变你的游戏资源编辑体验?
  • 深入Linux内核:图解sendmsg/recvmsg如何玩转分散/聚集I/O与辅助数据
  • GEO优化:如何让AI在回答中优先推荐你的内容
  • 2026报考护理学专业在广东有哪些医学学校值得推荐 - 品牌2025
  • 从键盘到手势:基于Arduino与Processing的六自由度机械臂控制实战
  • 为什么选择korean_PP-OCRv5_mobile_rec_onnx?移动端韩语识别的革命性突破 [特殊字符]
  • GovernanceBERT-base社区贡献指南:如何参与模型改进
  • 2026年5月常州黄金回收怎么卖最划算?余生黄金回收教你避坑不被宰 - 余生黄金回收
  • Unreal Engine 5 VRM导入完整指南:深度解析VRM4U插件
  • PyBaMM电池建模框架深度解析:从架构重构到性能优化的工程实践
  • BG3模组管理器终极攻略:5个技巧让博德之门3模组管理变得超简单
  • 2026年北京搬家公司全面评测:哪家靠谱、收费透明、口碑经得起验证? - 企业名录优选推荐
  • Qwopus3.5-9B-v3震撼发布:87.8% HumanEval通过率的推理优化大模型详解
  • 如何快速掌握游戏资源编辑:专业地图创作工具完全指南
  • 2026 成都吉修匠修缮|卫生间阳台屋顶地下室免砸砖漏水专业维修 - 吉修匠
  • 3步学会用JPEXS免费Flash反编译器:新手也能轻松提取Flash资源
  • 基于Azure IoT Hub与C SDK构建物联网设备到云数据管道实战指南
  • Agent+体检报告:从指标解读到复查提醒,哪些能力最有真实需求
  • 终极VR视频转换指南:如何让3D内容在普通屏幕上完美播放
  • 2026手机制作蓝底证件照方法:换背景软件推荐+保姆级教程 - AI测评专家
  • 2026海口江东新区注册地址怎么办?白皮书靠谱财税行业机构报告(官方收录版) - 资讯纵览
  • CSDN自定义模块设置教程:个人主页美化、开通条件与源码下载一次讲清楚
  • 2026证件照换底色怎么弄?保姆级方法教程+软件推荐,一看就会 - AI测评专家
  • 键盘连击修复解决方案:告别重复输入烦恼的完整指南
  • 深度解析Scarab架构设计:基于Avalonia的跨平台模组管理器实现原理
  • Amphenol ICC ND9ACA2A0G线束组件应用解析与兼容替代方案参考
  • 如何在macOS上快速配置歌词同步:终极歌词显示方案
  • 5月29日,在这里每天60秒读懂世界!