当前位置: 首页 > news >正文

120 万奖金池里,有一块没人抢的肥肉:RWKV-7 × transformers 训练适配

RWKV-7 “Goose” 出来一阵子了,100% RNN、无 KV cache、constant-space、linear-time,state 比同档 Qwen3.5 小三倍多——BlinkDL 那边单卡 fp16 decode 已经跑到 13000 tok/s 的量级。问题是:vLLM / SGLang / transformers / llama.cpp 四个方向的适配,目前都还没到生产级

于是有了这笔120 万奖金池,按贡献打分分配,四个方向可分开认领、可重叠拿分。

💡 重点来了:四个方向里,transformers 这一块几乎是空的,而且和其他三个零重叠——独立计分。


为什么是 transformers 方向值得冲

BlinkDL 原话:“transformers 的适配,需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”

而 HF 官方transformers目前只合了 RWKV-v5 / v6,v7 是 gap。谁能先把 v7 在 transformers 上跑通训练栈(PEFT / DPO / GRPO / SFT / DeepSpeed),谁就拿下了这个方向的 baseline + 后续优化空间。

更关键的是不重叠

方向社区进度与别人重叠生态价值
vLLM有人在做 PR高(state cache / chunked prefill 三家都要)推理 serving
SGLang空白较多推理 serving
transformers(本项)~空,这个 repo 在填PEFT / LoRA / DPO / GRPO / SFT 全训练生态
llama.cpp有人在摸边缘

训练方向做好了,下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利


dfytensor/transformers-rwkv7 已经做到哪了

这个 repo 就是冲着"RWKV-7 × transformers 训练适配"去的,作者已经把地基打完了,而且全栈可验证

🔧核心能力(已绿)

  • ✅ Pure-PyTorch forward,parallel(训练)/ RNN(decode)双模,数值对齐官方 demo,rel dev ~8e-7,argmax 100% 一致
  • ✅ backward 通 → 训练就绪
  • ✅ 加载官方 checkpoint(0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构)
  • AutoModelForCausalLM.from_pretrained()零代码加载(auto-register)
  • ✅ PEFT / LoRA:get_peft_model,0.69% trainable,grad 通
  • ✅ HF Trainer(SFT)、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通
  • ✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat(_is_hf_initializedguard)

加速三档

  • fla chunk kernel(flash-linear-attention + Triton / triton-windows):RTX 4090 上52–145×纯 PyTorch,bsz=1/T=2048 → 47859 tok/s
  • 增强 CUDA WKV kernel(dtype-templated fp16/bf16 + 出 state,nvcc JIT,失败静默 fallback)
  • Pure-PyTorch loop 保底(CPU/GPU/任意 dtype,正确性参照)

🧪测试覆盖:smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeed,Windows CPU + Windows CUDA 全绿,11/14 项无 GPU 也能跑——光"Windows 原生能跑"这一点,就把很多推理引擎方向卡死的平台问题绕过去了。


那还能提什么 PR?(这才是重点)

地基有了,但 120w 评分是按"改进程度"来的,能加分的活还很多,随便列几个作者 roadmap 里和周边能啃的:

  1. 把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernel(faster3a_2605/rwkv7_fast_v3a.py),看能不能在 transformers 路径里复现那个 decode 13000 / prefill 17000 的水准
  2. 量化推理接入——w8 / w4,目标是 llama.cpp 的Q*_K_M精度档,老卡也要快于 w16
  3. TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有,但需要 Linux 多卡 runtime 验证 + 可能修边角
  4. 投机解码 draft 用小 RWKV——DFlash 类后续项目,先搭骨架
  5. autotune 选 kernel——纯 PyTorch / fla / CUDA 三档运行时按 shape+dtype+device 自动挑,这块目前是硬编码优先级
  6. 更多模型尺寸的全流程验真——0.1B / 0.4B 验过,1.5B+ 的 PEFT/DPO 跑通能加分
  7. 文档 + example——examples/ 目录刚建,SFT / DPO / GRPO 的端到端脚本是 contributor 友好入口

⚠️ 奖金是按"多个强 AI 评分 + 写明贡献"分配的,所以PR 描述里写清楚你改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、哪些测试新加的——这比闷头写代码更重要。


怎么上手(5 分钟能跑)

gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e".[peft,trl]"# 转 checkpoint(官方 .pth → HF 目录)python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-xxxx.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验一遍官方对齐python tests/test_alignment.py

Windows + Python 3.12 + RTX 4090 是作者主环境(triton-windows 3.7.1 绕过 CUDA 13.1 cudafe++ 崩),Linux 当然也能跑,fla 在 Linux 原生 Triton 更稳。


最后说句实在的

120w 摊到四个方向,transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有几个人在卷 state cache 和 chunked prefill 了,transformers 训练栈这边,dfytensor/transformers-rwkv7目前是唯一一个把 PEFT+TRL+DeepSpeed+5.x 全打通的 repo,但离"Albatross 级别的生产性能"还有距离。

BlinkDL 给的参考 kernel、给的 NumPy 参考实现、给的 Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。

PR 地址放这了:https://github.com/dfytensor/transformers-rwkv7 ,奖金公告在这:https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ

冲不冲?# 120 万奖金池里,有一块没人抢的肥肉:RWKV-7 × transformers 训练适配

RWKV-7 “Goose” 出来一阵子了——100% RNN、无 KV cache、constant-space、linear-time,state 比同档 Qwen3.5 小三倍多。BlinkDL 那边单卡 fp16 decode 已经跑到13000 tok/s、prefill 17000 tok/s(Pro 6000,5090 略低但更大 bsz 反超)。问题是:vLLM / SGLang / transformers / llama.cpp 四个方向的适配,目前都还没到生产级

于是有了这笔120 万奖金池,按贡献打分分配,四个方向可分开认领、可重叠拿分。

💡 重点来了:四个方向里,transformers 这一块几乎是空的,而且和其他三个零重叠——独立计分,干净可分。


为什么 transformers 方向值得冲

BlinkDL 原话:“transformers 的适配,需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”

而 HFtransformers官方目前只合了 RWKV-v5 / v6,v7 是 gap。谁能先把 v7 在 transformers 上跑通完整训练栈(PEFT / DPO / GRPO / SFT / DeepSpeed),谁就拿下这个方向的 baseline + 后续优化空间。

更关键的是不重叠——这张表是奖金分配时的关键判断:

方向社区进度与别人重叠生态价值
vLLM有人 PR #157514 在飞高(state cache / chunked prefill 三家都要)推理 serving
SGLang空白较多推理 serving
transformers(本项)~空,dfytensor 这个 repo 在填PEFT / LoRA / DPO / GRPO / SFT 全训练生态
llama.cpp有人在摸边缘 / 移动

训练方向做好了,下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利


dfytensor/transformers-rwkv7 已经做到哪了

这个 repo 就是冲着"RWKV-7 × transformers 训练适配"去的,作者把地基打完了,全栈可验证

🔧核心能力(测试全绿)

  • ✅ Pure-PyTorch forward,parallel(训练)/ RNN(decode)双模,数值对齐官方 demo,rel dev ~8e-7,argmax 100% 一致
  • ✅ backward 通 → 训练就绪
  • ✅ 加载官方 checkpoint(0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构,dim 自动推断)
  • AutoModelForCausalLM.from_pretrained()零代码加载(auto-register)
  • ✅ PEFT / LoRA:get_peft_model,0.69% trainable,grad 流通
  • ✅ HF Trainer(SFT)、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通
  • ✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat(_is_hf_initializedguard 防权重覆写)

加速三档,自动选择

  • fla chunk kernel(flash-linear-attention + Triton / triton-windows):RTX 4090 上52–145×纯 PyTorch,bsz=1/T=2048 →47859 tok/s
  • 增强 CUDA WKV kernel(dtype-templated fp16/bf16 + 出 state,nvcc JIT,失败静默 fallback 到纯 PyTorch)
  • Pure-PyTorch loop 保底(CPU/GPU/任意 dtype,正确性参照)

🧪测试覆盖:smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeed,Windows CPU + Windows CUDA 全绿,11/14 项无 GPU 也能跑——光"Windows 原生能跑"这一点,就把推理引擎方向卡死的平台问题绕过去了。


那还能提什么 PR?(这才是重点)

地基有了,但 120w 是按"改进程度"由多个强 AI 评分分配的,能加分的活还很多。结合作者 roadmap + BlinkDL 给的参考,随手列几个有分量的方向:

  1. 把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernel(faster3a_2605/rwkv7_fast_v3a.py),看能不能在 transformers 路径里复现 decode 13000 / prefill 17000 的水准
  2. 量化推理接入——w8 / w4,目标 llama.cpp 的Q*_K_M精度档,老卡也要快于 w16(Pascal 起都要能跑)
  3. TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有,但需要 Linux 多卡 runtime 验证 + 边角修补
  4. 投机解码 draft 用小 RWKV——DFlash 类后续项目,先搭骨架
  5. autotune 选 kernel——纯 PyTorch / fla / CUDA 三档按 shape+dtype+device 自动挑,目前是硬编码优先级
  6. 更多尺寸全流程验真——0.1B / 0.4B 验过,1.5B+ 的 PEFT/DPO 跑通能加分
  7. 文档 + example——examples/目录刚建,SFT / DPO / GRPO 端到端脚本是 contributor 友好入口

⚠️ 奖金分配规则:参加者写明自己贡献,多个强 AI 评分,公平分配。所以 PR 描述里写清楚——改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、新增/修了哪些测试——这比闷头写代码更重要。


5 分钟上手

gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e".[peft,trl]"# 官方 .pth → HF 目录(一行命令)python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-20260129-ctx8192.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验官方数值对齐(rel dev ~1e-6 量级)python tests/test_alignment.py

Windows + Python 3.12 + RTX 4090 是作者主环境(triton-windows 3.7.1 绕过 CUDA 13.1 cudafe++ 崩),Linux 原生 Triton 更稳,CPU 也能全绿跑测试。


最后说句实在的

120w 摊到四个方向,transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有人卷 state cache 和 chunked prefill 了,transformers 训练栈这边,dfytensor/transformers-rwkv7目前是唯一把 PEFT+TRL+DeepSpeed+5.x 全打通的 repo,但离"Albatross 级别的生产性能"还有距离。

BlinkDL 给的参考 kernel、NumPy 参考实现、Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。

  • 项目地址:https://github.com/dfytensor/transformers-rwkv7
  • 奖金公告:https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ
  • QQ 群(社区):579490404

冲不冲你定,但这个方向独立计分 + 零重叠,光这条在 120w 池子里就已经值回票价了。🚀

http://www.jsqmd.com/news/1119097/

相关文章:

  • RAG落地踩坑实录:从Demo到生产的差距有多大?
  • S1.1 独立产品的变现模式地图:哪种模式最适合你
  • 通过结构化步骤化解社恐压力
  • Dify 实战指南:从零构建企业级 AI 应用与工作流
  • 华为MetaERP Oracle EBS 各模块业务场景及会计分录汇总表文件信息: 共 11个模块 | 300条业务场景 | 编制日期:2026年7月模块目录表格序号 模块名称 业务场景数 主
  • CBC模式密文篡改攻击:无需密钥,直接实现权限提升
  • OpenHarmony Button 按钮组件全场景开发与 API23 + 适配优化
  • 做电子元器件生产的朋友,国内线圈固定胶生产厂家哪家更靠谱?
  • 分享一个连DeepSeek都说“颜值高”的代码截图工具
  • Dify实战指南:一周构建企业级AI应用,从零到精通
  • RAG效果评估:你的知识库到底好不好用?
  • abu_tcp 自定义安全协议源码拆解
  • 一套正版、免费、强大的 Visual Studio 2012 IDE
  • Azure Local 离线模式网络规划(系列篇之二)
  • SpringBoot3 + Java21 虚拟线程实战:吞吐量提升 300%,彻底告别线程池调优
  • Install with Options:Android高级安装的终极解决方案
  • Insta360 AI剪辑深度解析:从原理到实践,重塑视频创作效率
  • 0Ω电阻在PCB设计中的五大核心功能与应用技巧
  • PHP安全编码实践指南:从纵深防御到SQL注入与XSS防护
  • 企业级RAG架构:权限控制、安全防护与多租户
  • qt启动等待动态图
  • BK7259 Wi-Fi 6 SoC芯片解析与IPC应用开发实战
  • DevToysMac:macOS开发者必备的5个核心模块完整指南
  • AI Agent平台架构设计:从概念到企业级工程实践
  • TOC-XGBoost:龙卷风优化算法在时间序列预测中的应用
  • Ra<1nm超光滑镜面测量:2026推荐三维光学轮廓仪
  • 第3篇|Want 参数一传就丢:把跳转协议和接收边界写清楚
  • 前端转大模型:换个角度把学习路线落到项目证,把学习路线落到项目证据
  • 内蕴时空正则化(ISR)与曲率引擎工程:从递归自指宇宙学到星舰动力系统
  • 93.CODESYS/TIA 通用!模块化 ST 电机控制系统,含故障复位与时序优化