当前位置：首页 > news >正文

LLM 直接写量化策略，到底靠不靠谱？

news 2026/6/29 23:52:02

经常有人问我：

现在大模型写代码这么强，能不能直接让它写一个量化策略，然后拿去实盘？

这个问题，我以前也真试过。

当时 GPT-4o 刚火起来，网上到处都是“AI 几分钟写出完整项目”的视频。我也心痒，直接丢给它一句话：

用 Backtrader 写一个 RSI 超卖反弹策略。 RSI 低于 30 买入，高于 70 卖出，半仓。

十几秒后，代码出来了。

类继承、初始化、买卖逻辑、日志打印都有。复制进 IDE，运行也不报错。那一刻你会有一种错觉：好像真的只差一个提示词，就能把策略研究自动化了。

然后 equity 曲线出来了。

一条直线。

零笔交易。

这就是很多人第一次用 LLM 写策略时会遇到的现实：代码看上去像那么回事，回测框架也跑起来了，但策略本身并没有真正工作。

1. 第一个坑：代码没错，金融语义错了

我后来排查了两个小时，问题藏在 Backtrader 的细节里。

LLM 写的是：

if self.rsi < 30: self.buy(size=target_size)

这段代码在普通 Python 语法里看起来没毛病。Line对象也确实支持比较运算，所以程序不会报错。

但在 Backtrader 里，你真正想取的是当前 bar 的 RSI 值，应该写成：

if self.rsi[0] < 30: self.buy(size=target_size)

就这一个[0]，足够让一个策略从“看起来能跑”变成“真的按当天指标判断”。

这类错误最麻烦的地方在于，它不是语法错误。

语法没问题，框架能跑，回测也能输出结果。只有真正熟悉框架的人，才会意识到这里的金融语义已经偏了。

修完这个，再跑。

还是零成交。

第二个坑更隐蔽：那段时间 RSI 根本没跌破 30。再加上 LLM 把几个入场条件用严格的and绑在一起，信号几乎不可能同时满足。

手动把阈值放宽、条件拆开以后，终于有交易了。

但手续费一扣，利润又被吃没了。

这件事给我的感觉很明确：
LLM 懂 Python，不代表它懂策略。

它能写类、写函数、写日志，也能调用框架。但它不一定知道一个条件会不会让信号消失，不一定知道手续费会不会吞掉边际收益，也不一定知道 Backtrader 这种框架的取值习惯。

这些东西不是代码语法，是量化研究员长期积累出来的“肌肉记忆”。

2. QuantCode-Bench：为什么“能跑”不等于“能交易”

最近 Lime 团队做了一个评测，叫 QuantCode-Bench。

它收集了 400 个具体的策略编程任务，把一批大模型拉到同一个回测环境里测试。

这个评测有意思的地方在于，它没有只看代码能不能生成，而是把量化策略开发拆成四道关卡。

关卡	测什么	常见失败
1. 语法正确	代码能否通过基础检查	大部分模型都能过
2. 回测可运行	能否在框架里跑完整回测	索引越界、数据对齐错误
3. 至少成交	策略是否真的产生交易	条件太严、信号为零
4. 逻辑一致	代码是否偏离原始策略意图	买卖条件写反、仓位规则偏移

最真实的是第三关：至少得下一笔单。

很多模型前两关都能过，看起来已经完成任务了。可一到“是否真的交易”，一批模型直接掉下去。

这和我当时的零成交经历非常像。

原文里提到，一遍跑下来，即便最强的 Claude-opus-4.6，通过率也只有 75.8%。国内表现较强的是 glm-5 单轮，以及 kimi-k2.5 多轮。

QuantCode-Bench 模型通过率对比

这张图反映的不是“哪个模型更会写代码”这么简单。

它说明量化代码任务有一个很特殊的断层：
从语法正确，到策略真实发生交易，中间隔着大量框架细节和金融直觉。

3. 失败原因其实很具体

这类任务失败，并不是因为模型完全不会写代码。

相反，大模型在基础代码生成上已经很强。真正让它翻车的，往往是一些特别小、但对交易系统很致命的细节。

原文里提到两个典型死因：

失败原因	占比	具体表现
Line 对象布尔判断错误	13.1%	忘记使用`[0]`获取当前 bar 的值
条件过于苛刻导致零信号	17.8%	多个入场条件用`and`硬绑，回测期内几乎不触发

举个很典型的例子。

LLM 可能会写出这种条件：

if self.rsi[0] < 30 and self.close[0] > self.sma[0] and self.volume[0] > volume_threshold: self.buy()

从代码角度看，这很工整。

但从策略角度看，这可能直接把信号掐死。

RSI 低于 30，本来就常常出现在弱势下跌环境。你又要求收盘价站上均线，还要求成交量超过阈值，三个条件同时满足的概率可能非常低。

最后策略没亏钱，也没赚钱。

因为它根本没交易。

这类问题不是靠“模型参数更大”就能自然解决。它需要回测反馈、错误定位和策略语义检查。

4. 直接让 LLM 当交易员，风险很大

这组结果也能和另外两类研究放在一起看。

第一类是 AlphaForgeBench。

它测试的是 LLM 做交易决策的能力。里面有一个很刺眼的现象：如果直接让 LLM 当交易员，根据市场状态给出买卖决策，它的行为会非常不稳定，前后矛盾，方差很大。

但如果换个用法，把 LLM 当成量化研究员，只让它生成可执行的 Alpha 因子，把逻辑生成和交易执行拆开，结果会稳定很多。

这点很关键。

LLM 更适合做研究辅助，不适合直接接管交易执行。

第二类是 LLM-GA。

西交利物浦大学提出过一个框架，把大模型和遗传算法结合起来。大模型不负责“一次写出完美策略”，而是负责提供策略变异、交叉和逻辑约束，让搜索过程不要跑到完全离谱的方向。

这其实是更合理的用法。

人类提出假设 | LLM 生成策略表达 / 因子变体 | 回测系统验证 | 遗传算法筛选与变异 | 人类复核经济逻辑与风险

这里 LLM 是研究流程的一环，不是最终决策者。

5. Agentic 多轮修复，才是正确打开方式

QuantCode-Bench 里还有一个很有意思的数据。

单次生成时，最佳模型通过率只有七成多。但如果给模型加上 Agentic 多轮反馈机制，允许它失败、读取报错、最多修 10 次，最佳模型通过率可以提升到 95%-98%。

这就说得通了。

因为很多错误并不深。

它们不是“模型完全不懂量化”，而是：

1. 框架对象取值方式错了；

2. 条件组合导致没信号；

3. 数据对齐有偏移；

4. 仓位更新和订单状态没处理好；

5. 交易成本没有正确扣除。

这些问题，只要有回测反馈，就能修。

一个更合理的 LLM 量化开发流程应该像这样：

策略想法 -> LLM 生成初稿 -> 回测运行 -> 捕捉报错 / 零成交 / 逻辑偏移 -> LLM 修复代码 -> 再次回测 -> 人类检查参数、经济逻辑、风险暴露

这个流程里，LLM 的价值很大。

它可以快速搭框架、写指标、处理数据、生成可运行代码。
但核心参数、交易逻辑、信号解释、风险边界，仍然要人来盯。

6. 我对 LLM 写策略的判断

如果把 LLM 当成“自动提款机”，基本迟早要失望。

它不会因为你说一句“生成一个高夏普策略”，就真的理解市场里谁在亏钱、为什么愿意亏钱、这条 Alpha 能持续多久。

但如果把它当成一个手速很快、偶尔粗心、需要严格 review 的量化实习生，它已经非常有价值。

可以让它做：

1. 数据清洗脚本；

2. 指标和因子计算；

3. 回测框架初稿；

4. 参数扫描；

5. 结果可视化；

6. 报错修复；

7. 策略变体生成。

不应该直接交给它做：

1. 实盘买卖决策；

2. 核心 Alpha 假设；

3. 交易成本假设；

4. 风险敞口判断；

5. 策略是否值得放大的最终判断。

一句话：

LLM 可以加速量化研究，但不能替代量化判断。

7. 更现实的系统工程：harness

原文里提到一个词：harness。

这个词很重要。

想让 AI 真正参与策略生成，不是靠一两句 prompt，而是靠一整套约束、测试和反馈系统。

至少要包括：

1. 标准化数据接口；

2. 明确的策略模板；

3. 自动回测环境；

4. 零成交检测；

5. 交易成本检查；

6. 数据对齐检查；

7. 未来函数扫描；

8. 样本外验证；

9. 人工 review 节点。

没有这些东西，LLM 只是一个会写代码的黑盒。

有了这些东西，它才可能变成一个可控的研究助手。

这也是析境科技AI量化平台接下来重点要解决的问题：不是让 AI 凭空“发明圣杯”，而是把研究流程拆成可验证、可回滚、可迭代的模块。

8. 最后

LLM 直接写量化策略，靠不靠谱？

我的答案是：

单次生成，不靠谱。放进完整研究系统里，非常有用。

大模型真正改变的不是“谁能一键生成赚钱策略”，而是量化研究的工作流。

过去，一个想法要变成可运行回测，需要研究员自己写一堆数据处理、框架适配和指标计算。现在，这些体力活可以被 LLM 大幅压缩。

但压缩体力活，不等于压缩判断。

策略为什么有效，信号为什么触发，条件是否过严，成本是否真实，样本外是否站得住，这些问题还是要人来回答。

AI 的边界，不在它能不能写代码。
真正的边界在于：我们有没有能力把它放进一个足够严格的研究系统里。

复现代码和更完整的实验细节，我会放在析境科技AI量化平台。

SeekGain 析境科技是国内首个个人AI量化平台，也是连接量化研究者、AI 开发者和投资实践者的国内最大AI量化社群之一。我们聚焦机器学习在量化投资中的前沿应用，持续分享论文复现、模型代码、核心 Alpha 因子、策略研究框架和 AI 量化工具链。

核心价值：

1. 顶级圈层：连接量化研究员、私募创始人、基金经理、券商金工分析师、GitHub 高星项目作者及前沿研究者。

2. 每日高价值内容：持续更新前沿论文、研报复现、模型代码、核心 Alpha 因子和可落地的量化研究案例。

3. AI量化工具链：围绕因子挖掘、策略复现、回测验证和量化 Agent，帮助个人研究者把想法更快落到可验证的策略研究里。

加入 SeekGain 析境科技，和真正做研究的人一起，把 AI 量化从概念推进到可复现、可验证、可迭代。

查看全文

http://www.jsqmd.com/news/1092502/

A-LOAM源码精读与工程实践避坑指南

基于BurpSuite Montoya API开发现代化SSRF自动化探测插件

干货合集：盘点2026年圈粉无数的的AI论文网站

探索智能缠论量化框架：构建高效交易系统的完整技术指南

基于鸿蒙十二阶均衡体系：东亚地缘长期失衡下的区域冲突多情景推演——境外全域渗透体系远期博弈极限测算（十四）

从亚稳态到稳定传输：深入解析CDC跨时钟域同步的核心技术与设计实践

ABC460F 题解

从“ollama安装模型失败“到“显卡驱动升级“记录

3大实战技巧深度解析：如何高效使用SMUDebugTool调优AMD Ryzen处理器

秩序数与宇宙收敛的数学突破

DSEFix：突破Windows驱动签名强制的技术利刃

为什么你的ChatGPT中文版总“答非所问”？——基于BERT-Chinese-LLM对齐度评估的语义漂移诊断工具包（限时开放下载）

终极指南：3种方法让Switch游戏安装变得简单高效

65nm、FinFET、GaN...工艺变了，ESD失效方式也完全不同

【招聘】创业科技公司招聘运营深度实操手册

为什么同样叫海参，有的卖5000，有的卖1500？

技术创作者如何解读VIP文章合作协议：从条款到实践

HarmonyOS技术精讲-应用间跳转：从零理解Want与Ability

【基于Linux4.19.X内核】Linux ALSA-ASoC驱动框架（一、Machine驱动框架及部分数据结构）

数字化转型的旅行业务是什么？旅行社老板打造个人IP有何重要性？

2025更新！植物大战僵尸杂交版2.51安装包下载

兰州大学论文插图残留AI水印遭调查，你的配图可能也藏雷！

GPT-4的1.8万亿参数与2%激活率真相：MoE稀疏激活原理与工程实践

第二十一届全国大学生智能车竞赛盲盒任务说明

揭秘FileBrowser批量下载：3个颠覆式技巧让文件管理效率翻倍

10 个使用 Spring Boot 4 的开发技巧，太惊艳了！

Blender CAD参数化设计：7个技巧从零掌握机械精度控制

HS2-HF Patch专业级汉化与插件集成实战指南：三步打造进阶游戏体验

NoFences：为Windows桌面构建思维导图式的工作空间

规则漂移是的第三代

相关文章：