当前位置: 首页 > news >正文

我把 Qwen 的「世界模型」塞进了 LlamaFactory,然后它教会了 AI 预知未来

上周二晚上刷 GitHub trending 的时候,看到 Qwen 发了个新项目。

名字叫 Qwen-AgentWorld。

点进去看了一眼,我整个人愣了好一会儿。

不是因为这是个新模型,而是因为这个模型做的事情,跟所有现有模型都不一样

它不是聊天模型。不是推理模型。不是代码模型。不是 Agent 模型。

它是一个Language World Model,语言世界模型

翻译成大白话就是,你给它一个智能体的当前状态和一个动作,它会预测环境下一步会返回什么

你给它「在 Terminal 里敲了ls」,它告诉你终端会输出什么。你给它「搜索了某个关键词」,它告诉你搜索引擎会返回哪几条结果、URL 长什么样、排名怎么排。你给它「在 Android 上点击了某个按钮」,它告诉你 UI 层级树会怎么变。

它在模拟世界。

看完之后我第一个念头就是,这东西能不能在 LlamaFactory 里直接跑起来?

于是我提了个 PR。


一个只有 13 行的 PR

PR #10615 在 LlamaFactory 里做的事情,非常非常简单。

就是在constants.py里加了一个模型注册:

# Qwen-AgentWorld,基于 Qwen3.5-35B-A3B 构建的语言世界模型# MoE 架构,总参数 35B,激活参数仅 3B,支持 256K 上下文# 参考仓库,https,//github.com/QwenLM/Qwen-AgentWorldregister_model_group(models={# 模型名称,后缀 -Thinking 会自动绑定推理模板"Qwen-AgentWorld-35B-A3B-Thinking"{# 支持 HuggingFace 和 ModelScope 两个下载源DownloadSource.DEFAULT,"Qwen/Qwen-AgentWorld-35B-A3B",DownloadSource.MODELSCOPE,"Qwen/Qwen-AgentWorld-35B-A3B",},},# 复用已有的 qwen3 聊天模板,推理时用 --reasoning-parser qwen3# 不需要新增模板,因为模型共享 Qwen3 的标准聊天格式template="qwen3",)

13 行代码,加了一个模型。

但你想想,这 13 行代码背后是什么?

它意味着你现在可以在 LlamaFactory 里,一键微调一个能模拟七个智能体交互领域的 AI 世界模型。

而且最离谱的是,它只有 3B 激活参数。3B。我笔记本上的 GPU 都能跑。

但这还不是最让我震撼的。

最让我震撼的是,我仔细读了一遍论文之后发现,这个模型在模拟环境这件事上,干掉了 GPT-5.4


什么是语言世界模型?AI 学会了「预知未来」

在往下聊之前,我得先把「语言世界模型」这个概念讲清楚。

你想想传统的 AI 模型是怎么训练的。

大语言模型,训练目标是「预测下一个 token」。你给它前半句话,它预测后半句。

Agent 模型,训练目标是「给定状态,选择正确的动作」。你给它一个环境状态,它决定下一步该做什么。

但没有任何一个语言模型,被训练成去预测「环境接下来会怎样」。

这就是 Qwen-AgentWorld 做的事情。

它的训练目标是一个数学公式,论文里是这么写的。

o ^ t + 1 = f θ ( c , o ≤ t , a ≤ t ) \hat{o}_{t+1} = f_\theta(c, o_{\leq t}, a_{\leq t})o^t+1=fθ(c,ot,at

http://www.jsqmd.com/news/1116180/

相关文章:

  • 嵌入式电源管理:TPS65263与PIC18LF25K50方案详解
  • 3步轻松获取:国家中小学智慧教育平台电子课本下载工具完全指南
  • iSulad Rust扩展架构解析:深入理解ttrpc多路复用通信机制
  • 5个技巧掌握G-Helper:华硕笔记本性能控制完全指南
  • sql(2)
  • macOS Catalina Patcher终极指南:让老旧Mac焕发新生的完整教程
  • 京东商品详情 API完整介绍与标准 JSON 返回示例
  • 日本NMB(Minebea)称重传感器
  • 嵌入式按键管理:74HC32与PIC32MX硬件去抖方案
  • 2026佛山木纹砖十大品牌有哪些?木纹砖口碑品牌参考
  • 从奥维火星坐标到南京 08 地方坐标系:七参数解算、转换链路与精度误差全解析
  • 堆垛机自动化立体仓库:面向重载、高效率的智能仓储解决方案
  • openEuler/docs-website目录结构详解:轻松掌握项目组织与文件用途
  • 3步成为歌词管理达人:163MusicLyrics让你的音乐库瞬间完整
  • utdnsmasq源码解析:Rust实现的DNS缓存机制
  • isula-transform 与 Kubernetes 集成:混合容器环境迁移策略指南
  • Mermaid Live Editor:免费在线图表编辑器,3分钟创建专业图表
  • AI 新闻发布:大鱼营销搭建外贸品牌全球 AI 信息传播体系
  • 健康160自动挂号脚本:告别排队烦恼的智能解决方案
  • 主流招聘网站企业招聘会员完整收费标准对比
  • WittyHub扩展开发指南:如何添加新的AI技能源和平台支持
  • 为什么选择YiShaAdmin?三大核心优势与快速上手指南
  • 《恋与深空》连续翻车,AI会成为乙女游戏的下一场信任危机吗?
  • 如何在24GB显存下高效运行Flux1-dev AI模型:完整实战指南
  • IIM-42652与PIC18F45K42的6DoF运动追踪系统设计
  • KMR221与PIC18LF27K42构建高精度电源管理系统
  • 基于Si4731与STM32的AM/FM收音机系统设计与优化
  • 6.5~90V 超宽输入,SOT23-6 极小封装,WD5081 高压宽压异步降压
  • STM32实现15A无刷电机FOC控制方案详解
  • 城通网盘解析工具:3分钟掌握高速下载秘籍,告别限速烦恼