当前位置：首页 > news >正文

Lion优化器深度解析：原理、泛化优势与改进方向

news 2026/6/21 19:58:29

1. 项目概述：从“炼丹”到“炼金”的优化器演进

在深度学习的日常训练中，我们这些从业者常戏称调参为“炼丹”。而优化器，无疑是这丹炉下最核心的“火候”。从经典的SGD到如今遍地开花的Adam及其变种，我们一直在寻找那个能更快、更稳、更准地找到最优解的“神火”。最近，一个名为Lion（EvoLved Sign Momentum）的优化器引起了不小的关注，它声称在多个任务上超越了AdamW，尤其是在泛化性能上表现突出。这让我这个老“炼丹师”产生了浓厚的兴趣：它真的那么神吗？其背后的泛化能力提升和收敛性保证，是确有其理，还是特定数据集上的偶然？更重要的是，我们能否基于现有的理论分析，对它进行针对性的改进，使其更适应我们手头千变万化的任务？

简单来说，Lion优化器可以看作是对SignSGD和Adam的一种精妙融合与进化。它最大的特点是省内存和疑似更好的泛化性。省内存好理解，因为它只维护动量（一阶矩），不像Adam还要维护二阶矩的指数移动平均。而泛化性好，则是一个更值得深究的命题。本文，我将结合自己复现和实验的经验，深入拆解Lion的核心机制，从理论层面分析其泛化与收敛性的可能根源，并探讨几个在实际应用中具有潜力的算法改进方向。无论你是正在为模型泛化能力发愁的研究员，还是寻求更高效训练方案的工程师，希望这篇深度解析能给你带来一些实实在在的启发。

2. Lion优化器核心原理深度拆解

要理解Lion的改进，我们必须先回到原点，看看它究竟做了什么不一样的事情。

2.1 算法流程与直观理解

Lion的更新规则异常简洁，其核心步骤如下：

计算当前时刻的动量更新：m_t = β1 * m_{t-1} + (1 - β1) * g_t。这里g_t是当前梯度，β1是动量系数（如0.9或0.99）。这一步和传统动量（Momentum）一模一样。
关键一步：使用sign函数对动量m_t和当前梯度g_t的加权和进行符号提取。更新方向u_t由以下公式决定：u_t = sign(β2 * m_t + (1 - β2) * g_t)。这里的β2是另一个超参数（如0.99），用于控制历史动量与当前梯度的混合比例。sign函数将向量的每个元素映射为+1或-1。
参数更新：θ_t = θ_{t-1} - η_t * (u_t + λ * θ_{t-1})。其中η_t是学习率，λ是权重衰减系数。注意，这里是对参数θ直接应用u_t（符号向量）进行更新，而非原始的动量或梯度值。

直观理解：你可以把Lion想象成一个极其“果断”的决策者。在每一步，它并不纠结于梯度或动量的具体数值大小，而是综合考察“历史趋势”（动量m_t）和“最新情报”（梯度g_t）的加权符号。只要加权和为正，它就向负方向（梯度下降方向）迈出固定大小的一步（由学习率决定）；为负，则向正方向迈出一步。这种“符号化”操作，带来了两个直接影响：

内存节省：无需存储二阶矩估计，m_t的精度甚至可以用bfloat16等低精度格式，显著降低显存占用。
更新噪声：sign函数引入了固有的离散化噪声。这种噪声在优化理论中有时并非坏事，它可能起到类似“随机梯度下降中的梯度噪声”或“显式正则化”的作用，有助于逃离尖锐的极小值点，从而可能提升泛化能力。

2.2 与Adam、SignSGD的对比分析

为了更清楚Lion的定位，我们将其与近亲们放在一起比较：

特性	SGD with Momentum	Adam	SignSGD	Lion
更新方向	动量方向	一阶矩/二阶矩调整后的方向	当前梯度的符号	动量与梯度加权和的符号
内存占用	低（存动量）	高（存一、二阶矩）	极低（仅需梯度）	低（仅存动量）
自适应学习率	无	有（每个参数独立）	无	无
更新大小	依赖动量大小	依赖梯度幅值调整	固定（学习率）	固定（学习率）
噪声特性	连续噪声	连续噪声，幅度自适应	离散噪声，幅度大	离散噪声，幅度固定，融合历史信息
泛化表现	通常较好	有时泛化不如SGD	不稳定，泛化可能差	论文报告优于Adam，接近或优于SGD

与Adam的核心区别：Adam通过除以二阶矩估计的平方根来实现参数层面的自适应学习率，这在大模型训练中非常有效，但也被一些研究认为可能导致泛化能力下降，因为它削弱了梯度幅值的影响，可能使优化过程过于“平滑”。Lion完全抛弃了自适应学习率，回归到固定步长更新，但通过引入动量和sign操作，试图在保持简单性的同时，获得更好的训练特性。

与SignSGD的核心区别：SignSGD直接使用当前梯度的符号，u_t = sign(g_t)。这非常激进，对噪声敏感，容易不稳定。Lion的关键改进在于引入了动量m_t和混合参数β2。β2 * m_t + (1 - β2) * g_t这个操作，本质上是一个指数移动平均（EMA），只不过作用对象是用于取符号的“信号”。这带来了平滑效果，让更新方向不仅基于当前嘈杂的梯度，也基于历史更新趋势，显著提升了稳定性。

实操心得：理解β2的作用至关重要。当β2接近1时（如0.99），Lion更依赖于动量方向，更新更加平滑、保守，适合后期微调或噪声大的任务。当β2较小时，则更响应当前梯度，行为更接近SignSGD，可能在初期收敛更快但波动大。这是一个重要的调参杠杆。

2.3 理论视角下的泛化能力初探

为什么一个如此简单的改动可能带来更好的泛化？目前并没有绝对统一的理论，但可以从以下几个优化理论的角度进行推测：

平坦极小值偏好：sign操作带来的固定步长更新和离散噪声，可能使得优化器不那么容易陷入狭窄而尖锐的极小值（这些极小值通常泛化能力差），而更容易收敛到平坦宽阔的极小值区域。平坦区域对参数扰动不敏感，因而泛化能力更强。这类似于SGD中梯度噪声所带来的隐式正则化效应。
梯度裁剪的隐式效应：sign函数可以看作是一种极端的、动态的梯度裁剪——它将任何大小的梯度（或动量）都裁剪为单位向量。已知适度的梯度裁剪可以稳定训练并有时提升泛化。Lion在每一步都执行这种“符号裁剪”。
权重衰减耦合：注意Lion的更新公式u_t + λ * θ_{t-1}。权重衰减项λ * θ_{t-1}是直接加在符号向量u_t上的。这意味着权重衰减的效应与更新方向是解耦且线性叠加的。在一些分析中，这种形式可能比AdamW中将权重衰减与学习率耦合的方式（θ_t = θ_{t-1} - η_t * (g_t + λ * θ_{t-1})，这里简化）具有更可预测的规则化效果。
简化与正则化：去除自适应学习率，本身就是一种模型简化。复杂的自适应机制可能在训练集上过拟合优化轨迹，而简单的固定步长规则可能具有更好的归纳偏置，引导模型走向更通用的解。

需要强调的是，以上多为基于经验的推测和类比，Lion泛化优势的严格理论证明仍然是开放性问题。但正是这些有趣的特性，为我们改进算法提供了切入点。

3. 收敛性分析的挑战与现有理解

收敛性分析是优化算法的基石。对于Lion这类非凸、非光滑（由于sign函数）优化器，其理论分析颇具挑战。

3.1 标准收敛性分析框架的局限性

传统的随机优化收敛性分析，通常要求目标函数是光滑的（梯度Lipschitz连续），并在此基础上证明算法期望梯度范数的平方和（或梯度方差）能够以O(1/√T)或O(logT/T)的速率下降至零附近。

Lion引入的sign函数导致了两个分析难点：

非光滑性：sign函数在零点处不可导，这使得整个更新规则不满足经典分析中的光滑性假设。我们不能直接对sign内的表达式应用梯度下降的标准不等式。
更新量的有界性：由于u_t ∈ {+1, -1}^d，参数每一步的变化幅度被严格限制在η_t的尺度上。这与Adam等算法中更新量可与梯度幅值成比例的特性不同，需要新的分析工具。

3.2 基于“信号-噪声”分解的启发式分析

一种理解Lion收敛性的思路是进行“信号-噪声”分解。将更新方向u_t视为对真实下降方向（即负梯度方向-sign(∇L(θ))）的一个有噪声估计。

信号部分：当动量m_t和梯度g_t的加权和与真实梯度方向一致时，u_t给出正确的下降方向。
噪声部分：由于小批量采样带来的梯度随机性，以及sign函数对数值大小的不敏感，u_t可能指向错误的方向。

收敛的关键在于，随着优化的进行，“信号”部分（即动量m_t逐渐对齐损失函数的整体下降方向）应该逐渐增强，而“噪声”部分的影响应该逐渐减弱。动量项β1在这里扮演了低通滤波器的角色，平滑了梯度噪声，使得m_t比单一的g_t更可靠。参数β2则控制了我们对这个滤波后信号的信任程度。

从这个角度看，Lion的收敛依赖于动量项能够有效地累积并放大正确的下降方向，同时抑制随机噪声。这要求损失曲面在最优解附近不能过于崎岖，并且超参数β1、β2和学习率η_t需要精心设置，以平衡探索（允许噪声纠正方向）和利用（跟随动量趋势）。

3.3 学习率调度与收敛保障

由于更新幅度固定，学习率调度对Lion的收敛至关重要。常见的策略是采用余弦退火或线性衰减。

初期大学习率：允许算法进行较大范围的探索，快速穿越平坦区域。
后期小学习率：在接近最优解时，减小步长以便精细调整，稳定在极小值点附近。如果没有衰减，固定学习率可能导致在最优解附近反复振荡，无法精确收敛。

理论上，在满足一定条件（如梯度噪声有界、学习率递减且满足Robbins-Monro条件：∑η_t = ∞, ∑η_t^2 < ∞）下，可以论证Lion这类符号类算法能够收敛到平稳点。但具体的收敛速率上界，通常比标准SGD要差一个常数因子，这是为离散化操作付出的理论代价。

注意事项：在实践中，Lion对学习率的初始值和衰减策略可能比Adam更敏感。因为Adam有自适应机制缓冲，而Lion的更新是“硬”的。建议从一个相对保守的学习率开始（例如，比同场景下Adam的学习率小3-5倍），并搭配余弦退火进行实验。

4. 针对泛化与收敛的算法改进方向

基于上述分析，我们可以针对性地对Lion进行改进，目标是在其原有优势（省内存、潜在泛化好）的基础上，进一步提升稳定性、收敛速度或最终性能。

4.1 方向一：自适应混合系数 β2

在原始Lion中，β2是一个固定的超参数。但我们可以设想，在训练的不同阶段，算法对“历史动量”和“当前梯度”的依赖程度应该是动态变化的。

改进思路：变步长混合系数受“变步长LMS算法”思想的启发，我们可以让β2随着训练动态调整。例如：

训练初期：损失下降快，梯度方向变化大。此时应更信任当前梯度，设置较小的β2（如0.9），让算法更敏捷。
训练中后期：损失进入平台期，梯度噪声相对影响更大。此时应更信任平滑后的动量，设置较大的β2（如0.999），使更新方向更稳定，有助于逃离鞍点或尖锐极小值。

一种简单的实现方式是让β2随着训练步数t从β2_init线性或余弦增长到β2_final。这相当于给算法增加了一个自适应权衡机制，可能在不增加额外内存开销的情况下提升收敛性和泛化。

4.2 方向二：引入逐参数自适应步长

Lion完全放弃了幅度自适应，这是其与Adam系列的主要区别，也可能是其泛化优势的来源之一。但完全放弃幅度信息有时也会带来问题，例如在不同参数梯度尺度差异巨大的网络中（如Transformer中Embedding层与顶层Linear层的梯度），固定步长可能不是最优。

改进思路：轻量级幅度感知我们不想引入完整的二阶矩估计来恢复Adam的复杂度。一个折中的思路是引入一个非常粗糙的、低精度的幅度感知。例如：

维护一个额外的、低精度的向量s_t，用于估计每个参数梯度幅度的长期几何平均或平方平均。更新频率可以很低（每N步更新一次）。
在计算更新方向时，使用sign(β2 * m_t + (1-β2) * g_t / (√s_t + ε))。这里√s_t是对梯度幅度的估计，用于对梯度进行粗略的归一化。
s_t的更新可以使用极大的衰减系数（如0.9999），使其变化非常缓慢，更像一个静态的、从训练数据中学习到的参数尺度先验，而非动态的自适应。

这种方法试图用极小的额外成本（一个低精度的s_t向量），在保持sign操作和离散噪声主体的同时，缓解不同参数尺度差异过大带来的问题，可能对深层或异构网络的训练有助益。

4.3 方向三：融合聚类思想稳定更新方向

“改进Kmeans聚类算法”的热词给了我们另一个有趣的联想。Kmeans的核心是迭代地计算质心（代表点）。我们可以将Lion的更新方向u_t视为一个“代表方向”。

改进思路：方向聚类与共识更新

在训练中，定期（例如每K个step）收集最近一段时间内（一个窗口）的u_t向量。
对这些二值向量进行简单的聚类分析（由于是±1向量，计算汉明距离即可），找出主要的更新方向模式。
如果发现过去一段时间更新方向非常发散（聚类结果分散），可能意味着优化处于震荡或鞍点区域。此时，可以临时采用一个更保守的更新策略，例如使用窗口内更新方向的“共识”（多数投票或质心方向）来代替当前时刻的u_t，以稳定优化路径。

这种机制类似于为优化过程添加了一个“方向平滑滤波器”或“异常方向检测器”，旨在降低优化路径的方差，可能有助于提升在复杂损失曲面上的收敛稳定性。其计算开销集中在周期性的聚类分析上，通过设置合理的窗口大小和周期，可以将开销控制在可接受范围内。

4.4 方向四：模拟鱼群算法的随机探索

“改进人工鱼群算法”启发我们引入受控的随机性。鱼群算法通过觅食、聚群、追尾等行为模拟智能搜索。在优化中，我们有时需要主动的、智能的噪声来跳出局部最优。

改进思路：有偏的符号随机化完全随机的噪声可能低效。我们可以设计一个与当前优化状态相关的有偏随机化策略：

定义当前更新方向u_t = sign(β2 * m_t + (1-β2) * g_t)为“主方向”。
以概率p_t（自适应概率）对u_t的某些维度进行翻转（将+1变为-1，反之亦然）。概率p_t可以根据当前训练状态动态调整：
- 当损失长时间不下降时，增加p_t，引入更多随机探索，试图跳出当前区域。
- 当损失稳定下降时，减小p_t，遵循主方向进行利用。
翻转的维度可以选择那些对应梯度/动量加权和绝对值较小的维度，因为这些维度的更新方向置信度较低，改变它们可能带来的风险较小。

这种策略在保持Lion核心框架的同时，为其注入了一种简单的“自适应探索”机制，可能有助于解决某些复杂的非凸优化问题。

5. 实验设计与效果评估要点

提出改进思路后，必须通过严谨的实验来验证。以下是设计对比实验时需要注意的要点。

5.1 基准任务与数据集选择

为了全面评估改进效果，应选择具有代表性的任务：

图像分类：CIFAR-10/100，ImageNet。这是检验优化器泛化能力的经典战场。重点关注验证集准确率和训练集与验证集的Gap。
自然语言处理：GLUE基准中的某些任务（如SST-2情感分类、MNLI自然语言推理）。使用预训练模型（如BERT-base）进行微调。关注下游任务准确率。
生成模型训练：在小规模扩散模型或GAN上进行测试。这类任务优化难度大，对优化器的稳定性要求高。
大规模语言模型预训练/微调：如果资源允许，这是终极测试。可以观察在LLaMA、GPT等架构上的困惑度（PPL）下降曲线和最终性能。

5.2 评估指标与对比对象

核心评估指标必须包括：

最终性能：验证集上的准确率、F1值、困惑度等。
收敛速度：达到特定性能阈值所需的训练步数或时间。
训练稳定性：训练损失/准确率的平滑程度（波动大小），是否出现异常尖峰。
内存与计算开销：记录GPU显存占用和每步迭代的平均时间。
超参数敏感性：在较小的超参数变动下，算法性能的鲁棒性。

对比对象至少应包括：

原始Lion：这是基线。
AdamW：当前最广泛使用的自适应优化器。
SGD with Momentum：泛化能力的经典标杆。

5.3 超参数设置与消融实验

对于每个改进方向（如自适应β2），需要设计消融实验：

固定最优超参对比：为所有优化器（包括改进版Lion）在验证集上仔细调优学习率、权重衰减、动量系数等，然后比较它们的最佳性能。
超参鲁棒性测试：固定一个“默认”超参设置（例如，使用原始论文推荐值），然后测试各个优化器在此设置下的表现。这更能反映算法在实际使用中的“开箱即用”友好度。
改进组件消融：对于融合了多个改进点的版本，通过实验逐一移除某个改进点（例如，将动态β2改回固定值），观察性能变化，以确认每个改进点的贡献。

实操心得：优化器对比实验非常耗时，且结果可能因模型架构、数据集、随机种子而异。一个可靠的结论需要多次运行（例如3-5次不同随机种子）取平均，并报告标准差。绘图时，建议使用滑动平均后的曲线，并附上原始曲线的半透明背景，以直观展示稳定性。

6. 实战：实现一个改进版Lion及其调参指南

让我们以“方向一：自适应混合系数 β2”为例，给出一个具体的PyTorch实现和调参建议。

6.1 PyTorch实现代码

import torch from torch.optim import Optimizer class AdaptiveLion(Optimizer): """ 自适应混合系数β2的Lion优化器。 β2从beta2_init线性增长到beta2_final。 """ def __init__(self, params, lr=1e-4, betas=(0.9, 0.99, 0.999), weight_decay=0.0): """ Args: params: 待优化参数 lr: 学习率 betas: 三元组 (beta1, beta2_init, beta2_final) beta1: 标准动量系数 beta2_init: 初始混合系数 beta2_final: 最终混合系数 weight_decay: 权重衰减系数 """ defaults = dict(lr=lr, betas=betas, weight_decay=weight_decay) super().__init__(params, defaults) @torch.no_grad() def step(self, closure=None): loss = None if closure is not None: with torch.enable_grad(): loss = closure() for group in self.param_groups: lr = group['lr'] beta1, beta2_init, beta2_final = group['betas'] weight_decay = group['weight_decay'] # 计算当前步的动态beta2 (线性增长) # 假设总步数已知，这里需要外部传入或记录。简化版：使用state中的step计数。 for p in group['params']: if p.grad is None: continue grad = p.grad state = self.state[p] # 初始化状态 if len(state) == 0: state['step'] = 0 state['exp_avg'] = torch.zeros_like(p) # 动量m_t exp_avg = state['exp_avg'] step = state['step'] # 计算当前步的动态beta2 # 这里需要总步数total_steps，在实际应用中应从外部传入或估算。 # 为示例，我们假设一个总步数，例如10000。 total_steps = 10000 beta2 = beta2_init + (beta2_final - beta2_init) * min(step / total_steps, 1.0) # 更新动量 exp_avg.mul_(beta1).add_(grad, alpha=1 - beta1) # Lion核心更新 update = beta2 * exp_avg + (1 - beta2) * grad p.mul_(1 - lr * weight_decay) p.add_(torch.sign(update), alpha=-lr) state['step'] += 1 return loss

代码说明：

我们继承了torch.optim.Optimizer。
betas参数现在是一个三元组(beta1, beta2_init, beta2_final)。
在每一步step中，我们根据当前步数step和预设的总步数total_steps，线性地计算当前的beta2值。在实际应用中，total_steps应该作为参数传入，或根据数据集大小和epoch数计算。
其余部分与原始Lion保持一致。

6.2 超参数调优建议

使用改进版或任何新优化器时，系统性的调参至关重要：

学习率 (lr)：这是最重要的参数。对于AdaptiveLion，可以从原始Lion推荐学习率的0.5倍到1倍开始尝试。例如，对于BERT微调，原始Lion推荐lr=1e-4到5e-5，那么AdaptiveLion可以从5e-5开始。使用学习率扫描（Learning Rate Finder）是高效确定大致范围的好方法。
动量系数 (beta1)：通常稳定在0.9或0.95。如果训练不稳定，可以尝试调低至0.85；如果希望更平滑，可以调高至0.99。
混合系数范围 (beta2_init, beta2_final)：这是本改进的核心。一个合理的起点是：
- beta2_init = 0.9：初期更依赖当前梯度。
- beta2_final = 0.999：后期更依赖平滑后的动量。你可以根据训练日志观察：如果前期损失震荡大，可以适当提高beta2_init（如0.95）；如果后期收敛缓慢，可以适当降低beta2_final（如0.995）。
权重衰减 (weight_decay)：对于视觉任务，常用0.01或0.05。对于NLP任务（尤其是微调），常用0.1或0.01。Lion对权重衰减可能比AdamW更敏感，建议进行网格搜索，例如尝试[0.01, 0.02, 0.05, 0.1]。
总步数估计 (total_steps)：需要相对准确。计算公式为：total_steps = num_epochs * (total_samples / batch_size)。设置不准确会影响beta2的增长节奏。一个保守的策略是将其设得比实际步数稍多，确保训练后期能到达beta2_final。

6.3 训练监控与诊断

在训练过程中，除了观察损失和准确率，还可以监控以下指标来诊断优化器行为：

更新方向余弦相似度：计算连续两步更新方向u_t和u_{t-1}的余弦相似度。如果持续接近1，说明优化方向稳定；如果波动大或经常接近-1，说明可能在震荡。
梯度/动量加权和的统计：观察β2 * m_t + (1-β2) * g_t的L1或L2范数。如果其值普遍很大，说明sign函数输入明确；如果很多维度接近零，说明这些维度的更新方向置信度低，可能是改进方向三（随机翻转）的作用点。
参数更新量分布：直方图展示-lr * u_t的分布。由于u_t是±1，它应该是一个双峰分布（集中在-lr和+lr附近）。如果分布异常，可能意味着实现有误。

7. 常见问题与排查技巧实录

在实际使用Lion或其变种时，你可能会遇到以下典型问题：

7.1 训练初期损失爆炸或不下降

可能原因1：学习率过大。这是最常见的原因。Lion的固定步长更新对学习率非常敏感。
- 排查：将学习率降低一个数量级（例如从1e-4降到1e-5）重新开始训练，观察前几个epoch的损失曲线。
- 技巧：使用热身（Warmup）策略。在前5%或10%的训练步数内，将学习率从0线性增加到预设值，这能极大稳定训练初期。
可能原因2：权重衰减过强。过大的权重衰减在初期会主导更新方向，干扰梯度信号。
- 排查：尝试将权重衰减暂时设为0，看损失是否正常下降。如果是，再逐步调小权重衰减值。
可能原因3：梯度数值问题。检查梯度中是否存在NaN或Inf值。
- 排查：在优化器step函数中添加梯度值检查。对于FP16混合精度训练，确保使用了grad_scaler并检查梯度缩放是否合适，避免下溢。

7.2 训练中后期收敛缓慢或陷入平台期

可能原因1：学习率衰减策略不当。学习率可能已经衰减得过小。
- 排查：绘制学习率随时间变化的曲线。尝试使用更激进的衰减策略（如余弦退火到更小的值），或增加总训练epoch。
可能原因2：β2设置导致过于保守。如果β2一直很大（或动态β2的最终值很大），优化器可能过于依赖历史动量，对新梯度响应不足，无法跳出平坦区域。
- 排查：观察动态β2的值。尝试降低beta2_final，或在训练后期引入小幅度的学习率“重启”或“循环”，给优化过程注入新的活力。
可能原因3：模型容量或数据问题。排除优化器问题，检查模型是否足够大以拟合任务，或数据是否存在标注噪声等问题。

7.3 验证集性能波动大（泛化不稳定）

可能原因1：离散更新噪声的副作用。sign操作固有的噪声在验证集上可能被放大。
- 排查：使用更长的验证周期，或对验证指标进行滑动平均后再判断。尝试在训练末期使用更小的β2（更依赖当前梯度）或更小的学习率，以稳定最终解。
可能原因2：权重衰减与学习率不匹配。
- 排查：系统地进行权重衰减和学习率的联合网格搜索。有时，稍微增加权重衰减能起到更好的正则化效果，提升泛化稳定性。
可能原因3：训练数据不足或过拟合。优化器无法解决根本的数据问题。
- 排查：检查训练集和验证集的损失曲线。如果训练损失持续下降而验证损失早早上升，则是典型过拟合，需要增加数据增强、Dropout、早停等正则化手段。

7.4 与AdamW相比显存节省不明显

可能原因：对于大多数模型，可训练参数占用的显存是主体，优化器状态占次要部分。只有当模型参数量极大，使得优化器状态（Adam有两个状态，Lion只有一个）成为显存瓶颈时，节省效果才显著。
技巧：对于大模型训练，可以将Lion的动量状态m_t设置为bfloat16甚至int8（通过量化），而模型参数仍用float16或bfloat16，这样可以进一步节省显存。但需注意数值精度可能带来的影响，需进行小规模实验验证。

最后，记住没有“银弹”优化器。Lion及其改进版本在有些任务上表现出色，在另一些任务上可能平平无奇。它的核心价值在于提供了一个不同于自适应学习率范式的、更简洁的优化思路。在实际项目中，最好的策略仍然是：基于任务特性、硬件约束和经验，准备2-3个候选优化器（如AdamW， Lion， SGD+Momentum），进行快速的基准实验，让数据告诉你哪个最适合当前的任务。本文提供的分析和改进思路，旨在帮助你更深入地理解这个工具，并在需要时能够对其进行定制和调整，而不是盲目地替换。优化器的选择，终究是服务于模型训练的整体目标。

查看全文

http://www.jsqmd.com/news/1056833/