当前位置：首页 > news >正文

GPT 之父参与！用 1931 年前数据训练 Talkie 模型，探索 AI 对未来的“预感”与编程能力

news 2026/5/1 12:26:56

Talkie 模型简介

今年年初，哈萨比斯给出硬核 AGI 判定标准：「一个训练数据截止到 1911 年的模型，能否推导出爱因斯坦 1915 年提出的广义相对论？」没想到真有人尝试，GPT 之父 Alec Radford 便是其中一位作者。最近，Alec Radford 与「神经常微分方程」提出者之一、陈天琦导师 David Duvenaud 以及量化专家 Nick Levine 用 1931 年以前的数据训练了 13B 模型 Talkie，并与其对话。这个「来自 1930 年」的模型切断现代知识污染，为测试 AI 能力提供参照，也是探索哈萨比斯问题的起点。

Talkie 模型的训练与用途

Talkie 训练数据来自 1931 年以前英文文本，包括书籍、报纸等，总计 2600 亿个 token，选 1931 年是因美国此前作品进入公共领域可合法使用。训练好后，研究者开 24 小时直播频道，让 Claude Sonnet 4.6 和 talkie‑1930 聊天，探索其知识边界，对话记录公开，他人可试用，体验链接：https://talkie-lm.com/chat。

研究动机

探索模型对未来的“预感”

研究者提出问题：只活在过去的模型能多大程度「预感」未来？他们从《纽约时报》抓取近 5000 条历史事件描述测 talkie「惊讶度」。结果显示，1930 年前 talkie 不意外，之后惊讶度爬升，五六十年代达顶峰后平稳。他们还引用 Demis Hassabis 问题，举例西科斯基直升机专利等，思考模型能否推演未知。

解决污染问题

评估大模型能力时，研究者难确定模型是真「会」还是见过答案。Talkie 不知 Python 没见现代代码，研究者用 HumanEval 测试评估，让其根据示例写新 Python 函数。结果 talkie 能学且随规模扩大表现提升，但与现代模型有差距，答对多为简单程序或示例改动，如旋转密码解码函数体现其对「逆函数」概念有理解。

研究数据多样性问题

当今主流大模型训练数据源于互联网，研究者思考研究的是普遍规律还是特殊性质。Talkie 提供对照组，研究者通过与现代孪生模型（架构相同，训练数据为 FineWeb）对比，希望剥离语言模型普遍属性和「互联网训练」特有产物。对比显示 talkie 全面落后，过滤「超纲」题目后差距缩小一半，在语言理解和数字计算维度表现接近，差距可能源于 OCR 质量和语料主题分布差异。

训练复古模型的难题

时间泄漏问题

训练复古模型棘手的是「时间泄漏」，「1930 年以前出版」内容可能涉及之后事情。早期 7B 版本 talkie 被问 1936 年总统及立法时答错，研究者开发分类器过滤数据，但 13B 版本仍对二战后事情有感知。

数据质量问题

1930 年无数字出版，文本需扫描识别，传统 OCR 对旧书识别差，转录训练的模型性能仅人工转录的 30%，清洗后回升到 70%，研究者正开发针对历史文献的 OCR 系统。

训练后对齐问题

现代大模型指令微调数据有现代气息，微调 talkie 会使其带现代腔。研究者从历史文本构建后训练流程，用 Claude Opus 4.6 和 Claude Sonnet 4.6 辅助打分，训练后分数从 2 分升到 3.4 分，他们承认用现代 AI 打分是「时代污染」，下一步想用 talkie 基础模型评价。目前，他们正训练 GPT - 3 级模型，预计今年夏天发布，可扩展语料库到超 1T 个 token，创建类似 ChatGPT 功能的 GPT - 3.5 级模型。

查看全文

http://www.jsqmd.com/news/731585/