当前位置: 首页 > news >正文

全球首个,英伟达用AI两个月造出「全新PyTorch」!震撼整个行业

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

转载自:新智元 |编辑:Aeneas

【导读】仅用两个月,AI 就「自己」写出了一个能跑模型、对标PyTorch的深度学习系统!陈天奇、贾扬清纷纷大赞:AI终将完全超越人类程序员。

最近,英伟达又发布了一个炸裂成果。

英伟达高级工程师Bing Xu开源了VibeTensor项目,并且表示:「这是第一个完全由 AI 智能体生成的深度学习系统,没有一行人类编写的代码。」

这是什么概念?深度学习运行时(Deep Learning Runtime),是让神经网络真正跑起来的底层系统系统。

仅仅用两个月,AI就自己写出了一个「深度学习运行时」。

它不是demo,不是PPT里的概念,是真正能跑起来的、对标PyTorch的一个系统!

这个项目也获得了陈天奇、贾扬清等大佬的盛赞。

两个月,AI写出比肩PyTorch的成果


AI,能不能从零生成一整套「深度学习系统软件」?这里指的,是那种真正的、工程师平时根本不敢让AI碰的底层系统。

答案是,可以。

VibeTensor是一个受PyTorch启发的即时运行时,它具有全新的C++20内核(CPU + CUDA)、torch风格的Python覆盖层以及实验性的Node.js/TypeScript API。

注意,它并不是一个轻量级封装器。它实现了自己的张量/存储、调度器、自动微分引擎、CUDA运行时和缓存分配器和插件ABI。

在VibeTensor项目中,人类只需要做这几件事:给出高层架构、定义约束条件,设定性能与可靠性目标。

剩下的事,就可以全部交给LLM驱动的编码智能体,包括C++核心运行时,Python API,Node.js接口等等。

英伟达工程师们,再也不用手动编写每一行代码了。

速度也是很惊人:仅仅用两个月时间,整个系统就开发完成了。

两个月,是什么概念?要知道,PyTorch经过了十年级别的演进,需要成百上千名工程师,进行无数次架构的重构。

而VibeTensor只需要2个月,由AI生成大量代码,还覆盖了完整的运行时链路。

当然,VibeTensor现在还不能取代PyTorch。虽然某些特定内核的速度更快,但它整体的训练性能仍然比PyTorch慢。

但这根本不是重点。

随论文一同发布的AI生成算子内核套件的宏观结构示意图,该套件包含多个后端实现(Triton、CuTeDSL以及PyTorch参考路径)

重点是,AI已经能造出PyTorch级别的复杂系统了。

这就证明:人工智能智能体已经足够强大,能够构建复杂的、功能齐全的软件系统,而不仅仅是简单的脚本。

编码智能体不仅能写函数,还能在测试约束下,协同生成并验证一个跨越多层抽象的复杂系统。

网友们纷纷惊呼:库兹维尔预言的递归改进循环,正在发生!

当然,AI智能体虽然可以编写大量代码,但最终成功与否,还要取决于项目是否附带评审。

有人说,英伟达真正的秀肌肉之处,在于敢把生产级的C++内核交给智能体来写。

这就意味着,英伟达背后,有着世界一流的测试基础设施,以及完善到位的运行时遥测体系。

用AI快速交付,其实并不难,真正困难的是如何可靠地交付——而这,依然是人类的护城河。


VibeTensor架构


这个架构的宏观视角,是这样的。

从使用体验上看,VibeTensor是一个受PyTorch启发的即时运行时,包括torch风格的Python API,以及熟悉的张量、算子、自动微分体验。

但在实现上,VibeTensor并不是PyTorch的封装或裁剪版,而是实现了自己的一整套系统栈。

从宏观层面来看,它由如下部分组成——

前端:Python(nanobind)和 Node.js(N-API)都向同一个C++运算符注册表分发。

核心运行时:张量/存储 + 调度器 + 自动微分 + 索引 + 随机数生成器。 CUDA运行时:流/事件包装器、分配器、图、内核启动助手。

计算层:内置CUDA内核 + 可选Triton/CuTeDSL内核 + 插件加载内核。 多GPU实验 :Fabric张量和可观测性(统计+事件环)。

更关键之处在于,它真的能训练模型。

针对Blackwell架构(SM100/SM103)的warp级特化ring all-reduce内核的宏观与微观视图

在评估阶段,论文并没有止步于单算子正确性或micro-benchmark,而是刻意选择了完整训练闭环作为验证手段,覆盖了三类具有代表性的工作负载:序列反转任务、CIFAR-10 上的Vision Transformer,以及一个miniGPT风格的语言模型。

这三个任务并非随意挑选。

序列反转任务是经典的自动求导与时序依赖sanity check,能够快速暴露梯度回传、参数更新或状态复用中的隐藏错误。

CIFAR-10上的ViT则引入了更复杂的算子组合,验证系统在中等规模模型下的稳定性。

而miniGPT风格的语言模型则进一步拉长了训练步数,对长时间运行、多步梯度累积、显存管理和数值稳定性提出了更高要求。

论文展示的训练曲线表明,在这些任务上,VibeTensor与PyTorch在整体收敛趋势上是高度一致的:loss能够稳定下降,accuracy或perplexity持续改善,没有出现梯度爆炸、训练发散或「跑几步就崩」的情况。

这一点尤其关键,因为它意味着系统中的多个核心子系统能够在真实训练循环中正确协同工作。

真正颠覆性的意义:工程边界被打破


英伟达这项研究真正颠覆性的意义,不在性能,而在「工程边界被打破」。

需要强调的是,作者非常克制:他们反复声明VibeTensor性能明显落后PyTorch,也不适合生产环境。

但这恰恰让这篇论文更有分量了。

因为它要证明的不是「AI能不能写出最优代码」,而是——系统软件,第一次被证明是「可被AI整体生成」的!

在过去,大家都默认一个隐含前提:AI可以写应用代码、脚本、业务逻辑,但系统软件、运行时、内存管理、并发控制,只能人写。

VibeTensor 第一次用一个可运行、可复现的工程告诉你:这个边界,正在被打穿。

另外,论文里一个非常重要、但容易被忽略的点是:测试不再只是验证工具,而是约束 AI 搜索空间的核心机制。

在这个项目中:测试约等于可执行的设计文档,回归测试是对抗「AI 局部正确、全局崩坏」的唯一手段,多步训练测试,则可以揪出单步算子永远发现不了的bug。

这本质上是在说:未来系统工程的核心能力,可能不是写代码,而是「设计好一套让 AI不敢乱来的测试体系」。

重要反面教材:「弗兰肯斯坦效应」

论文最后还非常坦诚地总结了AI写系统的典型失败模式,作者称之为弗兰肯斯坦效应。

简单说就是:每个子模块单独看都很合理,拼在一起却会把系统性能彻底拖垮。

比如,为了安全性,AI在autograd引擎里加了一个全局backward锁。

从单点看这是对的,但结果却是:GPU kernel空转、并行性被扼杀、系统整体变慢好几倍。

这部分内容其实非常有价值,因为它说明了一件事:AI非常擅长「局部最优」,但极其不擅长全局性能目标。

而这,正是下一阶段AI系统工程必须正面解决的问题。

总之,如果用一句话来概括VibeTensor这篇论文的意义,那就是:这是第一篇用完整可运行系统证明「AI已经可以触碰深度学习系统工程核心腹地」的论文。

它不是终点,但很可能是一个分水岭。

英伟达3万工程师全员All in AI编程

最近,还有另一个内幕消息曝出:英伟达的30000名工程师在引入AI编程助手后,代码产出狂翻3倍!

英伟达很早就在内部尝试各种AI代码生成辅助工具,但自从定制版Cursor广泛部署之后,效能提升才真正「爆发」。

注意,Cursor并不是简单补全,而是一套可以:自动生成新代码、生成单元测试与集成测试、理解大规模代码库深层依赖关系、自动修bug的的「全流程AI编程助手」。

据英伟达工程负责人描述:Cursor现在在所有产品线、所有开发阶段都在使用。它能自动从 ticket、设计文档获取上下文,然后基于规则自动生成包括代码、测试、CI 在内的完整变更。

三倍代码量,是说AI写了很多垃圾代码吗?事实相反,英伟达强调:代码质量仍由人工负责审核和监督。

工程师会留出更多时间,给设计决策和复杂逻辑,把重复性工作交给AI完成。

从英伟达的角度来看,这种「让 AI 进入关键路径」的做法其实并不陌生。早在多年前,DLSS就已经在超算上运行了。

可见,英伟达并不是第一次将AI引入高风险、高复杂度的工程系统,而是已经积累了长期经验。

参考资料:

https://x.com/mark_k/status/2020794242562486361

https://x.com/bingxu_/status/2014354974986408138

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
http://www.jsqmd.com/news/393948/

相关文章:

  • 2026年靠谱的电主轴/宁波柔性浮动打磨电主轴高评价直销厂家采购指南推荐(高评价) - 行业平台推荐
  • 学术写作的“未来引擎”:书匠策AI如何重构期刊论文创作生态——从选题到发表,一场AI与学术的深度对话
  • 金融/SDE/科技方向:UniCareer求职服务深度测评,真的适合留学生吗? - Matthewmx
  • 教你快速回收京东e卡,方法超简单! - 团团收购物卡回收
  • 2026年质量好的人造肉机/小型人造肉机厂家热销推荐 - 行业平台推荐
  • 学术江湖的“智能侠客”:书匠策AI如何用六大绝技重塑期刊论文写作
  • 2026年知名的塑料注塑模具/注塑模具加工哪家强品牌厂家推荐 - 品牌宣传支持者
  • 使用豆包的思考模式给每天的自己打分
  • 2026年知名的床垫/天然材质床垫工厂采购指南如何选(实用) - 行业平台推荐
  • 不踩雷!千笔,本科生论文写作神器
  • 强强联手!OpenClaw创始人加入OpenAI:智能体革命,真的来了
  • 完整教程:K8M快速入门:5分钟部署智能K8s管理平台
  • DeepSeek官宣更新了!突然「变冷」冲爆热搜
  • 2026年知名的光伏支架锌铝镁钢管/光伏支架专用锌铝镁钢管怎么选真实参考销售厂家参考 - 品牌宣传支持者
  • 如何设计一款能终身使用的脑植入设备?
  • 基于西门子PLC的自动洗衣机控制系统设计:从原理到实操
  • 2026年比较好的锂电池粉碎机/粉碎机选哪家高口碑品牌参考 - 品牌宣传支持者
  • 京东e卡兑换攻略,回收最高价! - 团团收购物卡回收
  • 推荐 4 个神级 SKills 开源 GitHub 项目,非常实用。
  • 2026年评价高的唐山锌铝镁方管/唐山光伏锌铝镁方管选哪家高口碑品牌参考 - 品牌宣传支持者
  • 2026年评价高的山东粉末冶金分级机/机械分级机生产商推荐怎么选(可靠) - 品牌宣传支持者
  • 人工智能之数字生命-观察的实现
  • RedisSentinel主从配置
  • 【学习笔记】省份数量问题的求解与性能优化
  • 【学习笔记】无重复元素数组子集求解的性能优化与工程实现
  • 2026年知名的膨果生物刺激剂/进口生物刺激剂哪家高评价品牌厂家推荐 - 品牌宣传支持者
  • 2026年热门的带锁球阀/黄铜球阀高评价厂家推荐 - 品牌宣传支持者
  • 面试必看:无重复元素数组
  • 2026年评价高的青岛抗逆型肥料/氨基酸肥料厂家选择指南怎么选(真实参考) - 品牌宣传支持者
  • 2026年知名的振动筛设备/圆形振动筛高口碑厂家推荐(评价高) - 品牌宣传支持者