当前位置：首页 > news >正文

1931年的大模型能写代码？GPT之父的穿越实验，撕开了AI界最大的谎言

news 2026/5/4 22:01:44

摘要：GPT之父Alec Radford团队用百年前的数据训练了一个130亿参数的"古董"大模型talkie-1930-13b。这个从未见过计算机的模型，仅用250个样本微调后就能为现代Python库打补丁，在SWE-bench基准达到4.5%通过率，与"吃下整个互联网"的现代模型仅差1个百分点。这场"穿越"实验揭示了一个惊人真相：大模型的能力，或许根本不是来自海量数据，而是来自某种更深层的东西。

关键词：复古大模型、泛化能力、预训练范式、数据迷信

一、引子：一个活在1931年的AI，写出了Python代码

当全世界都在追逐"更大、更多、更新"的数据时，有人反其道而行之——他们把AI的知识永远锁在了1930年。

这不是科幻小说，而是OpenAI元老、真正的GPT系列之父Alec Radford的最新项目——talkie-1930-13b。

一个训练数据里从未出现过一台计算机、一个互联网、甚至一台电视机的AI，居然能写Python代码、修现代bug。

这个"穿越"实验，撕开了AI界最大的谎言。

二、talkie-1930：一部时光机里的130亿参数

它从哪里来？

talkie-1930-13b是一个130亿参数的语言模型，由Radford团队（Nick Levine、David Duvenaud等）从零开始训练。它的训练数据被严格限制在1931年1月1日之前的所有英文文本——总计2600亿token，涵盖书籍、报纸、期刊、科学论文、专利文档、法院判例。

选择1930年作为截止点，是因为这是美国版权法中作品进入公有领域的时间边界。训练数据完全合法合规。

这意味着talkie的"世界观"被永久冻结在了一百年前的某个瞬间——它不知道二战、不知道电视机、不知道互联网，更不知道计算机为何物。

它是如何炼成的？

但构建一台"时光机"远比想象中困难。

第一道坎：OCR噪声

1930年没有任何数字出版物，所有训练文本都必须从物理扫描件中通过OCR（光学字符识别）转录。团队发现，用标准OCR转录的文本训练，模型学习效率只有使用人工转录版本的30%。经过regex清洗后恢复到70%，仍有巨大差距。为此，团队正在开发专门的"复古OCR引擎"，专门处理历史文献的复杂排版。

第二道坎：时间泄漏

如果训练数据中混入了任何1931年之后的文本——哪怕只是一本书中后人添加的脚注或序言——模型的历史纯粹性就会被污染。早期7B版本明显知道"罗斯福新政"，就是因为混入了现代重印本。团队开发了基于n-gram的"时代错乱检测器"，但承认仍无法100%过滤干净。

第三道坎：后训练困境

将基础模型变成可对话的助手，通常需要使用现代指令数据。但这样会把现代人的"期待"注入模型。团队的解决方案是：完全从历史文本中构建训练数据——礼仪手册、书信指南、烹饪书、百科全书、寓言集。用这些百年前的"天然问答素材"，硬是把talkie调教成了一个能聊天的AI。