GPT 之父参与!用 1931 年前数据训练 Talkie 模型,探索 AI 对未来的“预感”与编程能力
Talkie 模型简介
今年年初,哈萨比斯给出硬核 AGI 判定标准:「一个训练数据截止到 1911 年的模型,能否推导出爱因斯坦 1915 年提出的广义相对论?」没想到真有人尝试,GPT 之父 Alec Radford 便是其中一位作者。最近,Alec Radford 与「神经常微分方程」提出者之一、陈天琦导师 David Duvenaud 以及量化专家 Nick Levine 用 1931 年以前的数据训练了 13B 模型 Talkie,并与其对话。这个「来自 1930 年」的模型切断现代知识污染,为测试 AI 能力提供参照,也是探索哈萨比斯问题的起点。
Talkie 模型的训练与用途
Talkie 训练数据来自 1931 年以前英文文本,包括书籍、报纸等,总计 2600 亿个 token,选 1931 年是因美国此前作品进入公共领域可合法使用。训练好后,研究者开 24 小时直播频道,让 Claude Sonnet 4.6 和 talkie‑1930 聊天,探索其知识边界,对话记录公开,他人可试用,体验链接:https://talkie-lm.com/chat。
研究动机
探索模型对未来的“预感”
研究者提出问题:只活在过去的模型能多大程度「预感」未来?他们从《纽约时报》抓取近 5000 条历史事件描述测 talkie「惊讶度」。结果显示,1930 年前 talkie 不意外,之后惊讶度爬升,五六十年代达顶峰后平稳。他们还引用 Demis Hassabis 问题,举例西科斯基直升机专利等,思考模型能否推演未知。
解决污染问题
评估大模型能力时,研究者难确定模型是真「会」还是见过答案。Talkie 不知 Python 没见现代代码,研究者用 HumanEval 测试评估,让其根据示例写新 Python 函数。结果 talkie 能学且随规模扩大表现提升,但与现代模型有差距,答对多为简单程序或示例改动,如旋转密码解码函数体现其对「逆函数」概念有理解。
研究数据多样性问题
当今主流大模型训练数据源于互联网,研究者思考研究的是普遍规律还是特殊性质。Talkie 提供对照组,研究者通过与现代孪生模型(架构相同,训练数据为 FineWeb)对比,希望剥离语言模型普遍属性和「互联网训练」特有产物。对比显示 talkie 全面落后,过滤「超纲」题目后差距缩小一半,在语言理解和数字计算维度表现接近,差距可能源于 OCR 质量和语料主题分布差异。
训练复古模型的难题
时间泄漏问题
训练复古模型棘手的是「时间泄漏」,「1930 年以前出版」内容可能涉及之后事情。早期 7B 版本 talkie 被问 1936 年总统及立法时答错,研究者开发分类器过滤数据,但 13B 版本仍对二战后事情有感知。
数据质量问题
1930 年无数字出版,文本需扫描识别,传统 OCR 对旧书识别差,转录训练的模型性能仅人工转录的 30%,清洗后回升到 70%,研究者正开发针对历史文献的 OCR 系统。
训练后对齐问题
现代大模型指令微调数据有现代气息,微调 talkie 会使其带现代腔。研究者从历史文本构建后训练流程,用 Claude Opus 4.6 和 Claude Sonnet 4.6 辅助打分,训练后分数从 2 分升到 3.4 分,他们承认用现代 AI 打分是「时代污染」,下一步想用 talkie 基础模型评价。目前,他们正训练 GPT - 3 级模型,预计今年夏天发布,可扩展语料库到超 1T 个 token,创建类似 ChatGPT 功能的 GPT - 3.5 级模型。
