当前位置：首页 > news >正文

Ling-2.6-flash-fp8震撼发布：104B参数模型如何实现340 tokens/s极速推理？

news 2026/7/26 4:39:23

Ling-2.6-flash-fp8震撼发布：104B参数模型如何实现340 tokens/s极速推理？

【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8

Ling-2.6-flash-fp8是一款拥有104B总参数和7.4B活跃参数的指令模型，它通过混合线性架构、令牌效率优化和针对智能体场景的定向改进，在4× H20设置上实现了高达340 tokens/s的推理速度，为用户带来更快、更高效的AI体验。

一、极速推理背后的核心架构

Ling-2.6-flash-fp8延续了Ling 2.5引入的架构方向，在Ling 2.0基础上融合了混合线性注意力机制，将原始的GQA注意力设计通过增量训练升级为1:7 MLA + Lightning Linear混合架构。这种混合注意力与高度稀疏的MoE架构相结合，使模型在推理效率上具有明显优势。

与同尺寸级别主流SOTA模型相比，Ling-2.6-flash-fp8不仅首 token 生成时间更快，在长输出场景下还能实现显著更高的生成吞吐量，预填充吞吐量和解码吞吐量最高可提升约4倍。无论是长上下文理解还是扩展文本生成工作负载，模型都能在保持能力的同时提供更快的响应速度。

二、三大核心优势解析

1. 混合线性架构提升推理效率

通过引入混合线性架构，Ling-2.6-flash-fp8从基础层面提高了计算效率。在实际应用中，这种架构让模型能够更快速地处理输入信息并生成输出，大大缩短了用户等待时间。

2. 令牌效率优化实现智能效率平衡

训练过程中，Ling-2.6-flash-fp8专门针对令牌效率进行了优化，旨在用更简洁的输出完成任务。在完整的Artificial Analysis评估套件上，仅使用15M令牌就能交付具有竞争力的性能，展现出更强的智能效率特性。

3. 智能体场景的定向改进

针对当前需求旺盛的智能体用例，Ling-2.6-flash-fp8在工具使用、多步骤规划和任务执行方面不断优化。在包括BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval和PinchBench等基准测试中，其性能与更大活跃参数计数的模型相比具有竞争力，在某些情况下甚至达到SOTA水平。

三、全面的性能评估

Ling-2.6-flash-fp8在多个权威基准测试中进行了全面评估，在BFCL-V4、TAU2-bench、SWE-bench Verified和PinchBench等代表性智能体基准测试中表现强劲。在实际应用中，它在Claude Code、Kilo Code、Qwen Code、Hermes Agent和OpenClaw等框架中都能提供出色的用户体验。

除智能体任务外，Ling-2.6-flash-fp8在一般知识、数学推理、指令遵循和长上下文理解方面也表现出色，与同尺寸级别SOTA模型保持一致。

四、量化鲁棒性：FP8和INT4

研究人员使用多个数据集对FP8和INT4量化模型进行了评估，分别通过块式量化和组式量化应用FP8和INT4量化，确保在不同精度下模型性能的稳定性。

五、快速上手指南

SGLang（推荐）

环境准备

pip install uv uv venv ~/my_ling_env source ~/my_ling_env/bin/activate uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow

运行推理

SGLang现在支持BF16和FP8模型，具体取决于${MODEL_PATH}中模型的数据类型。以下是使用4个GPU运行Ling-2.6-flash的示例，其中主节点IP为${MASTER_IP}，服务器端口为${PORT}：

服务器1. 标准推理（无MTP）

python -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --trust-remote-code \ --context-length 262144 \ --tool-call-parser qwen25 \ --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT \ --nnodes 1

2. 使用MTP（多令牌预测）推理当前官方SGLang的MTP实现存在bug。为获得更好的推理性能，建议安装我们的补丁版本。我们的修复目前正在审核中，预计不久将合并到官方SGLang库中。

安装我们的SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git cd sglang pip install --upgrade pip pip install -e "python"

启动服务器

python -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --context-length 262144 \ --mamba-scheduler-strategy extra_buffer \ --speculative-algorithm NEXTN \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.75 \ --max-running-requests 64 \ --max-mamba-cache-size 256 \ --tool-call-parser qwen25 \ --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \ --trust-remote-code \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT \ --nnodes 1

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

vLLM

环境准备

pip install uv uv venv ~/my_ling_env source ~/my_ling_env/bin/activate git clone https://github.com/vllm-project/vllm.git cd vllm VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

运行推理

服务器

vllm serve $MODEL_PATH \ --port $PORT \ --served-model-name my_model \ --trust-remote-code --tensor-parallel-size 4 \ --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

六、局限性与未来计划

Ling-2.6-flash-fp8在追求极致智能效率权衡方面已经取得了显著进展，在工具使用、多步骤规划和长期任务执行等关键领域有了实质性提升。结合推理效率和交互体验的系统性优化，它现在能够更好地处理大规模、高频自动化工作负载，在生产环境中提供更强的实际价值。

同时，研究团队也充分认识到，将智能效率推向极限需要权衡。在一些高度复杂的场景中，由于推理深度有限，模型仍然可能出现工具幻觉。此外，在中英文自然双语切换和遵循高度复杂指令等方面仍有改进空间。

展望未来，团队将继续探索智能效率的前沿。在保持模型高效推理特性的同时，旨在进一步改善输出质量和令牌效率之间的平衡，并不断增强模型在更广泛实际场景中的稳定性、可用性和交互体验。

想要体验这款极速推理的模型，可通过以下命令克隆仓库：

git clone https://gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8

【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/929085/

AI芯片分布式系统DLOS v1.0：面向AI任务调度的工程化运行时系统

Video2X终极指南：三步实现AI视频画质无损放大和帧率提升

抖音批量下载终极指南：告别手动保存，用开源工具高效采集全站内容

Arduino虚拟传感器避障机器人：低成本实现智能避障的算法与硬件设计

从零自制Arduino Uno兼容板：硬件设计、PCB打样与Bootloader烧录全流程

【架构实战】异地多活架构：跨地域高可用设计

我用一台旧电脑跑了个 AI 模型，发现比云 API 还香（附一键部署命令）

基于Arduino与Processing的RFID交互式视频播放系统实战指南

Windows系统深度优化架构：AtlasOS实现原理与配置机制解析

如何快速修复机械键盘连击问题：免费开源防粘连工具完整指南

555定时器驱动PCB艺术徽章：从经典电路到像素化耿鬼设计

从零打造8x8x8 LED光立方：硬件搭建、驱动原理与Arduino编程全解析

基于Arduino与TCS230的颜色识别系统：从传感器原理到实践应用

AI检测太高论文过不了？这4个降AI率平台2026年别再错过！

如何用WeChatMsg打造你的专属数字记忆库：从数据留痕到情感永存

基于Pinoo与Mblock3的倾斜传感器猜色游戏：事件驱动编程入门实践

别再只盯着模型了！搞懂Unity Mesh的这3个渲染模式，性能优化和调试效率翻倍

用74LS138和74LS00玩点花的：手把手教你设计一个简易的‘多数表决器’电路

HY-Embodied-0.5-X的长时规划能力：从任务分解到失败反思的完整循环

显卡驱动清理神器：DDU深度使用终极指南

树莓派四人抢答游戏机：从GPIO控制到Pygame交互的嵌入式开发实践

Kotlin 协程设计思想（一）：CoroutineContext 到底是什么？为什么 Job 和 Dispatcher 可以直接相加？

鸣潮自动化助手完整指南：如何用ok-ww解放双手，轻松完成日常任务

从零制作哈利波特魔杖灯：DIY电子入门与创意电路实践

FinTech架构深度解析：从数据、算法到风控中台实战

别死磕Ubuntu18.04了！拯救者Y9000P装双系统，直接上Ubuntu 22.04 LTS的保姆级教程（附驱动验证清单）

别再死记硬背公式了！用Python手把手实现吴恩达浅层神经网络（附完整代码）

南海区26年最新奢侈品名包名表专业回收权威店铺推荐 - 莘州文化

Arduino避障机器人：从硬件选型到代码实现的完整实践指南

基于Transformer与GPT-2的惠特曼风格诗歌生成器实践