当前位置: 首页 > news >正文

Ling-2.6-flash-fp8震撼发布:104B参数模型如何实现340 tokens/s极速推理?

Ling-2.6-flash-fp8震撼发布:104B参数模型如何实现340 tokens/s极速推理?

【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8

Ling-2.6-flash-fp8是一款拥有104B总参数和7.4B活跃参数的指令模型,它通过混合线性架构、令牌效率优化和针对智能体场景的定向改进,在4× H20设置上实现了高达340 tokens/s的推理速度,为用户带来更快、更高效的AI体验。

一、极速推理背后的核心架构

Ling-2.6-flash-fp8延续了Ling 2.5引入的架构方向,在Ling 2.0基础上融合了混合线性注意力机制,将原始的GQA注意力设计通过增量训练升级为1:7 MLA + Lightning Linear混合架构。这种混合注意力高度稀疏的MoE架构相结合,使模型在推理效率上具有明显优势。

与同尺寸级别主流SOTA模型相比,Ling-2.6-flash-fp8不仅首 token 生成时间更快,在长输出场景下还能实现显著更高的生成吞吐量,预填充吞吐量解码吞吐量最高可提升约4倍。无论是长上下文理解还是扩展文本生成工作负载,模型都能在保持能力的同时提供更快的响应速度。

二、三大核心优势解析

1. 混合线性架构提升推理效率

通过引入混合线性架构,Ling-2.6-flash-fp8从基础层面提高了计算效率。在实际应用中,这种架构让模型能够更快速地处理输入信息并生成输出,大大缩短了用户等待时间。

2. 令牌效率优化实现智能效率平衡

训练过程中,Ling-2.6-flash-fp8专门针对令牌效率进行了优化,旨在用更简洁的输出完成任务。在完整的Artificial Analysis评估套件上,仅使用15M令牌就能交付具有竞争力的性能,展现出更强的智能效率特性。

3. 智能体场景的定向改进

针对当前需求旺盛的智能体用例,Ling-2.6-flash-fp8在工具使用、多步骤规划和任务执行方面不断优化。在包括BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval和PinchBench等基准测试中,其性能与更大活跃参数计数的模型相比具有竞争力,在某些情况下甚至达到SOTA水平

三、全面的性能评估

Ling-2.6-flash-fp8在多个权威基准测试中进行了全面评估,在BFCL-V4TAU2-benchSWE-bench VerifiedPinchBench等代表性智能体基准测试中表现强劲。在实际应用中,它在Claude CodeKilo CodeQwen CodeHermes AgentOpenClaw等框架中都能提供出色的用户体验。

除智能体任务外,Ling-2.6-flash-fp8在一般知识数学推理指令遵循长上下文理解方面也表现出色,与同尺寸级别SOTA模型保持一致。

四、量化鲁棒性:FP8和INT4

研究人员使用多个数据集对FP8和INT4量化模型进行了评估,分别通过块式量化和组式量化应用FP8和INT4量化,确保在不同精度下模型性能的稳定性。

五、快速上手指南

SGLang(推荐)
环境准备
pip install uv uv venv ~/my_ling_env source ~/my_ling_env/bin/activate uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow
运行推理

SGLang现在支持BF16和FP8模型,具体取决于${MODEL_PATH}中模型的数据类型。以下是使用4个GPU运行Ling-2.6-flash的示例,其中主节点IP为${MASTER_IP},服务器端口为${PORT}

服务器1. 标准推理(无MTP)

python -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --trust-remote-code \ --context-length 262144 \ --tool-call-parser qwen25 \ --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT \ --nnodes 1

2. 使用MTP(多令牌预测)推理当前官方SGLang的MTP实现存在bug。为获得更好的推理性能,建议安装我们的补丁版本。我们的修复目前正在审核中,预计不久将合并到官方SGLang库中。

安装我们的SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git cd sglang pip install --upgrade pip pip install -e "python"

启动服务器

python -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --context-length 262144 \ --mamba-scheduler-strategy extra_buffer \ --speculative-algorithm NEXTN \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.75 \ --max-running-requests 64 \ --max-mamba-cache-size 256 \ --tool-call-parser qwen25 \ --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \ --trust-remote-code \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT \ --nnodes 1

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'
vLLM
环境准备
pip install uv uv venv ~/my_ling_env source ~/my_ling_env/bin/activate git clone https://github.com/vllm-project/vllm.git cd vllm VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto
运行推理

服务器

vllm serve $MODEL_PATH \ --port $PORT \ --served-model-name my_model \ --trust-remote-code --tensor-parallel-size 4 \ --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

六、局限性与未来计划

Ling-2.6-flash-fp8在追求极致智能效率权衡方面已经取得了显著进展,在工具使用、多步骤规划和长期任务执行等关键领域有了实质性提升。结合推理效率和交互体验的系统性优化,它现在能够更好地处理大规模、高频自动化工作负载,在生产环境中提供更强的实际价值。

同时,研究团队也充分认识到,将智能效率推向极限需要权衡。在一些高度复杂的场景中,由于推理深度有限,模型仍然可能出现工具幻觉。此外,在中英文自然双语切换遵循高度复杂指令等方面仍有改进空间。

展望未来,团队将继续探索智能效率的前沿。在保持模型高效推理特性的同时,旨在进一步改善输出质量令牌效率之间的平衡,并不断增强模型在更广泛实际场景中的稳定性、可用性和交互体验

想要体验这款极速推理的模型,可通过以下命令克隆仓库:

git clone https://gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8

【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/929085/

相关文章:

  • AI芯片分布式系统DLOS v1.0:面向AI任务调度的工程化运行时系统
  • Video2X终极指南:三步实现AI视频画质无损放大和帧率提升
  • 抖音批量下载终极指南:告别手动保存,用开源工具高效采集全站内容
  • Arduino虚拟传感器避障机器人:低成本实现智能避障的算法与硬件设计
  • 从零自制Arduino Uno兼容板:硬件设计、PCB打样与Bootloader烧录全流程
  • 【架构实战】异地多活架构:跨地域高可用设计
  • 我用一台旧电脑跑了个 AI 模型,发现比云 API 还香(附一键部署命令)
  • 基于Arduino与Processing的RFID交互式视频播放系统实战指南
  • Windows系统深度优化架构:AtlasOS实现原理与配置机制解析
  • 如何快速修复机械键盘连击问题:免费开源防粘连工具完整指南
  • 555定时器驱动PCB艺术徽章:从经典电路到像素化耿鬼设计
  • 从零打造8x8x8 LED光立方:硬件搭建、驱动原理与Arduino编程全解析
  • 基于Arduino与TCS230的颜色识别系统:从传感器原理到实践应用
  • AI检测太高论文过不了?这4个降AI率平台2026年别再错过!
  • 如何用WeChatMsg打造你的专属数字记忆库:从数据留痕到情感永存
  • 基于Pinoo与Mblock3的倾斜传感器猜色游戏:事件驱动编程入门实践
  • 别再只盯着模型了!搞懂Unity Mesh的这3个渲染模式,性能优化和调试效率翻倍
  • 用74LS138和74LS00玩点花的:手把手教你设计一个简易的‘多数表决器’电路
  • HY-Embodied-0.5-X的长时规划能力:从任务分解到失败反思的完整循环
  • 显卡驱动清理神器:DDU深度使用终极指南
  • 树莓派四人抢答游戏机:从GPIO控制到Pygame交互的嵌入式开发实践
  • Kotlin 协程设计思想(一):CoroutineContext 到底是什么?为什么 Job 和 Dispatcher 可以直接相加?
  • 鸣潮自动化助手完整指南:如何用ok-ww解放双手,轻松完成日常任务
  • 从零制作哈利波特魔杖灯:DIY电子入门与创意电路实践
  • FinTech架构深度解析:从数据、算法到风控中台实战
  • 别死磕Ubuntu18.04了!拯救者Y9000P装双系统,直接上Ubuntu 22.04 LTS的保姆级教程(附驱动验证清单)
  • 别再死记硬背公式了!用Python手把手实现吴恩达浅层神经网络(附完整代码)
  • 南海区26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化
  • Arduino避障机器人:从硬件选型到代码实现的完整实践指南
  • 基于Transformer与GPT-2的惠特曼风格诗歌生成器实践