当前位置: 首页 > news >正文

偏差-方差权衡及其如何塑造今天的 LLMs

原文:towardsdatascience.com/the-bias-variance-tradeoff-and-how-it-shapes-the-llms-of-today-40e2c355f8a2

构建通用人工智能是否需要低诱导偏差?

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0fabb400fc5efbd89d9c7965df48f123.png

由 BoliviaInteligente 在 Unsplash 拍摄的照片

在今天的机器学习领域,我们发现我们自己被这些巨大的转换器模型如chatGPTBERT所包围,它们在几乎所有下游任务上都能提供无与伦比的性能,但前提是需要在上游任务上进行大量的预训练。是什么让转换器需要如此多的参数,因此需要如此多的训练数据才能使它们工作?

这是我通过探索 LLMs 与数据科学中偏差和方差基石主题之间的联系而想要深入探讨的问题。这将很有趣!


背景

首先,我们需要回到记忆中,为即将到来的内容定义一些基础。

方差

在数据科学中,方差几乎与过度拟合同义。该术语的核心语言选择是变化的概念。高方差模型是一个模型,当输入变量 X 发生微小变化时,其对目标变量 Y 的预测值变化很大。

所以在高方差模型中,X 的微小变化会导致 Y 的巨大响应(这就是为什么 Y 通常被称为响应变量)。在下面的方差经典示例中,你可以看到这一点,只需稍微改变 X,我们立即得到 Y 的不同值。

这也会在分类任务中体现出来,例如将“Michael 先生”分类为男性,但将“Miichael 先生”分类为女性,这是神经网络输出中的即时且显著的反应,模型仅因为添加了一个字母就改变了分类。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8a1c6d142c16b788199c7bea4c4930a0.png

作者提供的图像,展示了高方差模型作为一个生成复杂曲线的模型,该曲线过度拟合并偏离真实函数。

偏差

偏差与欠拟合密切相关,这个术语本身就有助于解释为什么在这个语境中使用它。一般来说,偏差意味着由于偏向某个方向而偏离真实值,在机器学习的术语中,高偏差模型是指对数据中某些特征有偏差的模型,而选择忽略其余部分,这通常是由于欠参数化造成的,即模型没有足够的复杂性来准确拟合数据,因此它构建了一个过于简化的视图。

在下面的图像中,你可以看到该模型没有充分考虑到数据的整体模式,而是天真地拟合到某些数据点或特征,并忽略了数据的抛物线特征或模式。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fa3bd60742fcb70d538001de10de42ba.png

作者提供的图像,展示了一个忽略数据中明显模式的偏差大的模型。

归纳偏差

归纳偏差是对特定规则或函数的先验偏好,是偏差的特例。这可以来自对数据的先验知识,无论是使用启发式方法还是我们已知的自然法则。例如:如果我们想模拟放射性衰变,那么曲线需要是指数和光滑的,这是会影响我的模型及其架构的先验知识。

归纳偏差不是一件坏事,如果你对你的数据有先验知识,你可以用更少的数据,因此更少的参数,达到更好的结果。

具有高归纳偏差(即假设正确)的模型是一个参数较少,但给出完美结果的模型。

选择神经网络作为你的架构相当于选择一个显式的归纳偏差。

在 CNN 等模型的情况下,由于使用了过滤器(特征检测器)并在整个图像上滑动,其架构中存在隐含的偏差。这些检测诸如对象等事物的过滤器,无论它们在图像中的位置如何,都是应用先验知识的一个例子,即对象是相同的对象,无论其在图像中的位置如何,这是 CNN 的归纳偏差。

正式上,这被称为平移独立性假设,即在一个图像的一部分中使用的特征检测器,可能对检测图像其他部分中的相同特征是有用的。你可以立刻看到这个假设如何节省我们的参数,我们使用的是相同的过滤器,但将其在图像上滑动,而不是可能为图像的不同角落使用不同的过滤器来检测相同的特征。

CNNs 中内置的另一项归纳偏差是局部性假设,即只需在图像的小区域内寻找特征就足够了,单个特征检测器不需要覆盖整个图像,而只需覆盖其中的一小部分,你还可以看到这个假设如何加快 CNNs 的速度并节省大量参数。下面的图片展示了这些特征检测器如何在图像上滑动。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7606cbc0c6bfa91e6d433608767e6afd.png

图片由 Vincent Dumoulin, Francesco Visin 提供

这些假设源于我们对图像和计算机图形学的了解。从理论上讲,一个密集的前馈网络可以学习到相同的特征,但它需要显著更多的数据、时间和计算资源。我们还需要希望密集网络为我们做出这些假设,假设它正在正确地学习。

对于 RNNs,理论大致相同,这里的隐含假设是数据以时间序列的形式相互关联,以某个方向流动(从左到右或从右到左)。它们的门控机制以及处理序列的方式使得它们更偏向于短期记忆(RNNs 的主要缺点之一)


Transformer 及其低归纳偏差

希望在建立密集的背景知识之后,我们可以立即看到 Transformer 的不同之处,它们对数据的假设很少(也许这就是为什么它们对许多类型的任务都非常有用)

Transformer 架构对序列没有做出任何显著的假设。也就是说,Transformer 在任何时候都能很好地关注输入的所有部分。这种灵活性来自于自注意力,使得它们能够并行处理序列的所有部分,并捕获整个输入中的依赖关系。这种架构选择使得 Transformer 在没有关于局部性或序列依赖性的假设的情况下,能够有效地泛化到各种任务。

因此,我们可以立即看出,Transformer 没有像 CNNs 那样的局部性假设,也没有像 RNNs 那样的简单短期记忆偏差。这就是赋予 Transformer 所有这些力量的原因,它们具有低归纳偏差,不对数据进行任何假设,因此它们的学习和泛化能力很强,没有阻碍 Transformer 在相关过程中深入理解数据的假设。

这里的问题很明显,变压器很大,它们拥有难以想象的参数数量,部分原因是缺乏假设和归纳偏差,并且直接意味着需要大量的数据进行训练,在训练过程中,它们完美地学习输入数据的分布(由于低偏差导致高方差,存在过拟合的趋势)。这就是为什么一些大型语言模型(LLMs)似乎只是鹦鹉学舌,重复它们在训练期间看到的内容。图像展示了自注意力机制的例子,说明了变压器在处理每个单词时如何考虑句子中的所有其他单词,以及生成新单词时的情况。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0ebb103b77b1ef0c67741ecd643894b0.png

图片由作者提供

变压器真的是人工智能的最终前沿吗?还是存在更聪明、更好的解决方案,它们具有更高的归纳偏差,正等待被探索?这是一个开放式的问题,没有直接的答案。也许存在对低归纳偏差的隐含需求,以便拥有擅长多项任务的通用人工智能,或者也许存在一条我们可以采取的捷径,这样就不会妨碍模型泛化的效果。

我将把这个留给读者自己思考。


结论

在这篇文章中,我们从基础开始探讨了偏差理论,解释了作为架构的变压器是如何作为一个对数据及其处理方式假设很少的工具,这就是它们相对于卷积神经网络和循环神经网络的优势所在,但这也是其最大缺点——大小和复杂性的原因。希望这篇文章能够以新颖的视角阐明机器学习中的深层次主题。

喜欢这篇文章吗?

通过这个链接购买我一杯咖啡:buymeacoffee.com/zakharymg

http://www.jsqmd.com/news/812602/

相关文章:

  • 2026年第二季度拉伸网选型指南与优质品牌推荐 - 2026年企业推荐榜
  • 基于ESP32与VIBERAIL框架的振动监测系统:从信号处理到物联网应用
  • ARM架构浮点运算与FPEXC/FPSCR寄存器详解
  • 怎么对比 as const 和 readonly 在类型窄化中的区别?
  • 成都钢板生产厂家|成都热轧卷板钢材厂家|成都热轧H型钢加工_四川盛世钢联国际贸易有限公司 - 四川盛世钢联营销中心
  • 基于MCP协议集成AI求职助手:自动化简历优化与面试准备
  • E-GEO:基于多智能体架构的AI搜索引擎优化工具实战指南
  • 联想拯救者笔记本终极控制指南:开源工具完全替代官方软件
  • FPGA阵列信号处理矩阵算子高性能实现【附代码】
  • 构建增强型ClawHub数据层API:基于NestJS与MongoDB的工程实践
  • 2026年佛山镀锌钢材质量排行:佛山型材拉弯、佛山工字钢、佛山彩瓦、佛山槽钢、佛山耐磨钢板、佛山螺纹钢、佛山角铁选择指南 - 优质品牌商家
  • 习酒回收专业技术解析:中石油加油卡回收/五粮液回收/京东E卡回收/利群购物卡回收/剑南春回收/商场购物卡回收/国台回收/选择指南 - 优质品牌商家
  • AwaDB:轻量级嵌入式向量数据库,AI应用开发的瑞士军刀
  • 成套电气控制柜技术选型指南:激光专用集成机柜、电气机械智能集成系统柜、算力集成柜、能源化工电气集成控制柜、西门子CPU模块选择指南 - 优质品牌商家
  • 如何培养批判性思维?
  • 物联网时代:从技术连接到价值过滤的思辨与实践
  • ARM GICv3中断控制器中的GICR_INMIR0寄存器详解
  • 2026年5月企业级紫外线消毒灯定制优选:深度解析行业标杆宁波大榭开发区佑威光电有限公司 - 2026年企业推荐榜
  • [实战] 2026年制造业SPC统计过程控制(statistical process contro…
  • 多物流机器人任务调度与路径规划【附程序】
  • 2026年口碑好的uv转印机稳定供货厂家推荐 - 品牌宣传支持者
  • 2026年5月果汁瓶厂商****:畅维包装科技如何以创新技术引领行业标准? - 2026年企业推荐榜
  • 三亚观泰装饰翻车,家装选靠谱公司技巧
  • 从荒诞专利到严谨工程:硬件系统设计的非技术性思维陷阱
  • 3步搞定Windows部署自动化:MediaCreationTool.bat终极指南
  • 终极番茄小说下载器:免费一键获取全网小说资源并智能转换格式
  • 【NotebookLM专家级笔记架构】:基于认知科学验证的4层信息压缩模型,助你记忆留存率提升3.8倍
  • 2026年Q2抗菌消毒液靠谱品牌排行实测盘点:术前消毒液/物表消毒湿巾/碘伏消毒液/过氧乙酸消毒液/邻苯二甲醛消毒液/选择指南 - 优质品牌商家
  • 铝板椭圆成像无线传输损伤检测【附仿真】
  • 2026年4月全国承载力专项检测鉴定机构排行:房屋结构检测/房屋结构鉴定/房屋鉴定/抗震性专项检测鉴定/校舍安全鉴定/选择指南 - 优质品牌商家