当前位置: 首页 > news >正文

GPT 之父参与!用 1931 年前数据训练 Talkie 模型,探索 AI 对未来的“预感”与编程能力

Talkie 模型简介

今年年初,哈萨比斯给出硬核 AGI 判定标准:「一个训练数据截止到 1911 年的模型,能否推导出爱因斯坦 1915 年提出的广义相对论?」没想到真有人尝试,GPT 之父 Alec Radford 便是其中一位作者。最近,Alec Radford 与「神经常微分方程」提出者之一、陈天琦导师 David Duvenaud 以及量化专家 Nick Levine 用 1931 年以前的数据训练了 13B 模型 Talkie,并与其对话。这个「来自 1930 年」的模型切断现代知识污染,为测试 AI 能力提供参照,也是探索哈萨比斯问题的起点。

Talkie 模型的训练与用途

Talkie 训练数据来自 1931 年以前英文文本,包括书籍、报纸等,总计 2600 亿个 token,选 1931 年是因美国此前作品进入公共领域可合法使用。训练好后,研究者开 24 小时直播频道,让 Claude Sonnet 4.6 和 talkie‑1930 聊天,探索其知识边界,对话记录公开,他人可试用,体验链接:https://talkie-lm.com/chat。

研究动机

探索模型对未来的“预感”

研究者提出问题:只活在过去的模型能多大程度「预感」未来?他们从《纽约时报》抓取近 5000 条历史事件描述测 talkie「惊讶度」。结果显示,1930 年前 talkie 不意外,之后惊讶度爬升,五六十年代达顶峰后平稳。他们还引用 Demis Hassabis 问题,举例西科斯基直升机专利等,思考模型能否推演未知。

解决污染问题

评估大模型能力时,研究者难确定模型是真「会」还是见过答案。Talkie 不知 Python 没见现代代码,研究者用 HumanEval 测试评估,让其根据示例写新 Python 函数。结果 talkie 能学且随规模扩大表现提升,但与现代模型有差距,答对多为简单程序或示例改动,如旋转密码解码函数体现其对「逆函数」概念有理解。

研究数据多样性问题

当今主流大模型训练数据源于互联网,研究者思考研究的是普遍规律还是特殊性质。Talkie 提供对照组,研究者通过与现代孪生模型(架构相同,训练数据为 FineWeb)对比,希望剥离语言模型普遍属性和「互联网训练」特有产物。对比显示 talkie 全面落后,过滤「超纲」题目后差距缩小一半,在语言理解和数字计算维度表现接近,差距可能源于 OCR 质量和语料主题分布差异。

训练复古模型的难题

时间泄漏问题

训练复古模型棘手的是「时间泄漏」,「1930 年以前出版」内容可能涉及之后事情。早期 7B 版本 talkie 被问 1936 年总统及立法时答错,研究者开发分类器过滤数据,但 13B 版本仍对二战后事情有感知。

数据质量问题

1930 年无数字出版,文本需扫描识别,传统 OCR 对旧书识别差,转录训练的模型性能仅人工转录的 30%,清洗后回升到 70%,研究者正开发针对历史文献的 OCR 系统。

训练后对齐问题

现代大模型指令微调数据有现代气息,微调 talkie 会使其带现代腔。研究者从历史文本构建后训练流程,用 Claude Opus 4.6 和 Claude Sonnet 4.6 辅助打分,训练后分数从 2 分升到 3.4 分,他们承认用现代 AI 打分是「时代污染」,下一步想用 talkie 基础模型评价。目前,他们正训练 GPT - 3 级模型,预计今年夏天发布,可扩展语料库到超 1T 个 token,创建类似 ChatGPT 功能的 GPT - 3.5 级模型。

http://www.jsqmd.com/news/731585/

相关文章:

  • Windows和Office激活全攻略:KMS_VL_ALL_AIO终极指南
  • 当Switch遇见Atmosphere:解锁游戏主机的无限可能性
  • AutoClicker终极指南:5个技巧让你轻松实现Windows鼠标自动化
  • Pearcleaner:macOS彻底清理应用的终极指南,释放宝贵磁盘空间
  • 2026届学术党必备的十大AI论文平台实际效果
  • 2026年政治学论文降AI工具免费推荐:政治研究国际关系4.8元极速降AI指南
  • 观察 API Key 管理与访问控制如何提升团队资源安全性
  • 从零配置到实战:如何为你的MySQL数据库和K8s应用设定合理的RPO与RTO目标(附成本考量)
  • 如何实现高效智能文件传输?一站式跨设备同步方案全解析
  • ComfyUI-Impact-Pack:图像增强的乐高积木,5分钟构建专业级工作流
  • 告别芯片变砖:STM32超频锁死后的全链路修复指南(含ST-Link使用技巧)
  • 抖音评论采集终极指南:3步获取完整评论数据,无需编程基础
  • 3个步骤用Pulover‘s Macro Creator实现Windows桌面自动化:完整操作指南
  • LobeChat Plugin SDK:AI聊天机器人插件开发实战指南
  • StreamFX:OBS Studio的终极视觉特效插件完全指南
  • 3步魔法:浏览器中的革命性法线贴图生成器
  • 不只是安装:用Stable Diffusion WebUI + ChilloutMix模型,5分钟生成你的第一张AI写真
  • 通过 Python 示例代码快速实现与大模型的多轮对话交互
  • 避坑指南:在Ursina中自定义FirstPersonController时,如何解决跳跃穿墙和重力手感问题?
  • 5分钟解锁B站缓存视频:m4s-converter一键转换MP4完整指南
  • Vue.js 计算属性
  • 高效创建4K 240Hz虚拟显示器:ParsecVDisplay完整指南
  • 不止于卡车:J1939协议在非道路机械(农机、工程车)上的应用与调试实战
  • 如何将B站缓存视频永久保存?3分钟掌握m4s转MP4终极免费方案
  • 分布式多车自主泊车系统设计与Autoware实践
  • TVA在机器人核心零部件制造与检测中的体验分享(1)
  • 基于AI与静态生成的智能RSS聚合器FeedMe部署与定制指南
  • 构建内容审核系统时集成 Taotoken 多模型 API 的策略
  • 键盘连击终结者:Keyboard Chatter Blocker完全配置指南
  • 什么是安可?安可即时通讯软件选型标准 - 小天互连即时通讯