突破数据墙
这句话应该让你猛然停下。不是因为它夸张——而是因为它几乎是字面上真实的。
过去十年,围绕AI发展的叙事一直很简单:更多计算能力 = 更多数据 = 更聪明模型。如果你继续增加计算能力、数据和更聪明的模型——智能就会出现。这种方法效果不错。GPT-3催生了GPT-4。Llama催生了Llama 3。每一代都更有效、更智能、更令人惊叹地胜任。图表看起来是无限的。
然而,这并不准确。大多数有声望的机构估计,前沿AI实验室将在2026年耗尽互联网上可用的高质量人类创作文本的全球供应量。不是所有文本——还会有大量的Reddit帖子和YouTube评论。但是,那种为AI变得更聪明提供真正认知价值的文本类型——是有限的。而且我们正在以比之前任何一代人类创造它更快的速度消耗它。
欢迎来到数据墙——它不是正在逼近——它已经在这里了。
1、数据 vs. 思维
大多数普通人听到"我们将用完数据"时,会想象空空的电脑磁盘。这不是我们的问题。每一天,互联网创建大约2.5 quintillion(百万的三次方)字节的信息。我们的挑战是,其中几乎没有可用于训练前沿智能的内容。
原始数据和推理数据之间存在重大区别。一条推文:数据。一个维基百科页面:好一些。一篇严密的学术研究——提出假设、用反面证据进行测试、根据发现进行修正,并最终得出新颖的结论——那才是黄金。那是展示模型如何思考——而不仅仅是哪些词跟在哪些词后面——的那种有组织的人类推理。
与这些模型当前摄取的数据量相比,这种高质量数据极其稀缺。
因此,实验室开始探索唯一合乎逻辑的替代方案——使用其他模型产生的数据来训练模型。合成数据。AI教AI。
结果并不乐观。
研究人员报告了一种被描述为模型崩溃的现象——这是一个自我强化的循环,用合成数据训练的模型会发展出降低的推理多样性、缩小概率分布并放大先前的错误。这些问题从根本上说是认识论层面的。每一代都是其前一代逐渐变差的副本。模型的"知识"——更窄、更确定、更不真实——在被复制。
AI无法从其反射中生成智能。无限递归的镜面系列不会产生无限深度——它产生的是虚幻。
2、隐藏的人类劳动力:生成"自动化"AI的背后
不要以为AI行业的领导者们正在被动地等待这场危机到来。他们已经转入应急响应模式——而且他们的解决方案完全不像他们向我们兜售的科幻乌托邦。
OpenAI、Anthropic、Google DeepMind以及数百家其他小型实验室已经雇佣了数以万计的人类承包商来创建原创的高质量文本。不是为了标记数据或评估输出,而是按需思考。写出与专家一样复杂的冗长推理序列。撰写对复杂主题的深入且平衡的解读。展示那种合成生成难以实现的多层认知过程。
他们给它起了很多不同的名字:RLHF、Constitutional AI、偏好数据……无论标签是什么,他们都在构建一个大规模的、安静的人类智力劳动基础设施,为AI提供表现得像是智能的能力。
这不是短期修复——这是新的供应链。
AI竞争的赢家不是拥有最多GPU的人。他们是那些开发了大规模收割人类认知的方法的人——干净、高效、合法地。
基于身份的数据管道。经过认证的主题专家网络。鼓励AI自身难以完成的那种思考类型的系统性激励。
淘金热不在硅片里——淘金热在大脑灰质里。
3、未被言说的核心悖论
媒体一直在告诉我们AI将取代我们。
每年都会有一轮新的报道,讲述AI通过合同AI取代律师、通过诊断模型取代医生、通过代码生成软件取代工程师等。信息始终如一——旧方式(人类)是遗留物;新方式(AI)是创新。
但真正发生了什么?
AI变得越有能力——它就越依赖我们。
不是在怀旧或哲学意义上。在结构上和经济上,真正的人类推理——通过真实经验、不确定性和风险产生的——正在成为世界上最有价值的生产过程中最稀有的投入。
想想这在经济上意味着什么。石油驱动了20世纪。数据驱动了21世纪初。但现在,决定AI能力的限制因素不是石油、不是计算能力、甚至不是传统数据。
限制因素是人类思维本身——高质量、结构化的认知输出,使前向推理成为可能。
认知思维正在成为最后剩下的自然资源。
而当一种自然资源变得稀缺时——它的价值就会上升。
4、真正的瓶颈:通过吸管灌注海洋
即使我们解决了数据墙问题,一个更深层的限制仍然存在。
人类思考的速度远快于他们沟通的速度。
人们说话大约每分钟130词,打字大约每分钟40词——但认知吞吐量(你的大脑生成和评估想法的速率)要高得多。
你所知道的和你所能表达的之间的差距是巨大的。
我们正在试图将海洋般的认知通过吸管灌注。
而且这些吸管效率低下。企业系统、上下文切换、过时的界面——它们都减缓了人类表达。专业人员花时间纠正AI输出、重写草稿或低效地向系统提示。
每一秒浪费都是丢失的认知。丢失的智能。
5、AI的下一个突破将是更快的上行链路
解决方案不仅仅是更聪明的AI——而是更好的人机界面。
语音是一个进步——从每分钟40词的打字跳升到每分钟130词的说话。但仅靠语音缺乏结构。专家不是线性思考的——他们以分支可能性、概率和心理模拟的方式思考。
未来的界面必须:
- 理解意图
- 提出澄清问题
- 映射推理结构
- 区分确定性和推测
- 捕获显式和隐式逻辑
我们开始看到这一点的早期版本:捕获认知结构而不仅仅是文字的系统。将专家推理转化为结构化、可训练数据的工具。
这些系统不取代专家——它们放大专家。
通过这样做,它们恰好生成了AI系统迫切需要的那种高质量推理数据。
AI进步的下一个十年不会仅仅来自更大的模型——它将来自更好的人类上行链路。
6、哪两种未来最重要?
有一个重大的误解:未来是人类与AI之间的战斗。
不是。
真正的竞争是两种未来之间的竞争:
**未来 #1:**AI在数据墙处停滞——受限于缓慢的人类输入、退化的合成数据和被迫纠正其错误的专业人士日益增长的不信任。
**未来 #2:**我们构建带宽。我们创建允许人类以自然速度直接将思维输入机器的系统。我们实现无缝的人机协作。我们大规模生成高保真推理数据。
获胜的公司不会仅仅构建更大的模型——它们将在人类思维和机器学习之间构建更好的桥梁。
它们将把人类认知转化为一种可再生能源。
至于个人?
杠杆支点已经改变了。
它不再仅仅是关于你知道什么。
它甚至不完全是关于你如何思考。
原文链接:突破数据墙 - 汇智网
