当前位置: 首页 > news >正文

深度学习篇---非自回归(Non-Autoregressive)

非自回归(Non-Autoregressive)详解

1. 什么是非自回归?

非自回归(Non-Autoregressive, NAR)是一种并行生成的序列建模方式,它打破了对已生成内容的依赖,一次性独立预测目标序列中的所有词。

生活类比:就像印刷报纸,不是逐字排印,而是一次性印出整版内容。或者像拍全家福,不需要一个个排队,而是所有人站好位,快门一按同时成像。

2. 为什么需要非自回归?

2.1 自回归的瓶颈
  • 推理延迟高:必须串行生成,生成N个词需要N步

  • 计算效率低:无法充分利用并行硬件

  • 误差累积:前面出错会影响后面

2.2 非自回归的定位
自回归(AR) → 非自回归(NAR) 高质量、慢速度 快速度、质量待提升 ↓ ↓ 需要平衡 需要提升质量 ↓ ↓ →→→→→ 半自回归 ←←←←← 平衡点

3. 非自回归的核心原理

3.1 条件独立性假设

自回归的联合概率分解:

P(Y|X) = P(y₁|X) × P(y₂|X,y₁) × P(y₃|X,y₁,y₂) × ...

非自回归的条件独立性假设:

P(Y|X) ≈ P(y₁|X) × P(y₂|X) × P(y₃|X) × ...

即每个词的生成只依赖于源输入,不依赖于其他目标词

3.2 核心挑战
  • 多峰问题:一个源输入可能对应多个合理翻译

  • 模态平均:模型可能输出模糊的平均值

  • 长度预测:需要先预测输出序列长度

4. 非自回归的实现方式

4.1 基础架构
# 伪代码:非自回归生成过程 def non_autoregressive_generate(encoder_output, max_length): # 1. 预测序列长度 length = length_predictor(encoder_output) # 2. 初始化所有位置的输入(通常是复制编码器输出) decoder_input = initialize_decoder_input(length) # 3. 并行生成所有词 all_tokens = decoder(decoder_input, encoder_output) # 4. 一次输出完整序列 return all_tokens # [length] 所有词同时生成
4.2 主流方法对比
方法核心思想代表工作
Fertility-based预测每个源词生成几个目标词Non-Autoregressive Transformer (NAT)
Iterative Refinement多次迭代优化Iterative Refinement NAT
Mask-based掩码预测 + 并行解码Mask-Predict
Diffusion-based扩散过程逐步去噪DiffuSeq

5. 非自回归的技术细节

5.1 Fertility模型
源词: I love you Fertility: [1, 1, 1] → 一对一翻译 源词: 我喜欢你 Fertility: [1, 1, 1] # "我"→"I","喜欢"→"like","你"→"you" 源词: 中华人民共和国 Fertility: [1, 2] # "中华"→"China","人民共和国"→"People's Republic"
5.2 迭代精炼过程
第1轮: 我 * * * * (随机初始化) 第2轮: 我爱 * * * (基于置信度选择) 第3轮: 我爱中 * * (逐步填充) 第4轮: 我爱中国 (完成)
5.3 Mask-Predict机制
def mask_predict_step(current_sequence, confidence_scores): # 1. 掩码低置信度的位置 mask_positions = get_low_confidence_positions(confidence_scores) # 2. 并行预测被掩码的位置 masked_sequence = apply_mask(current_sequence, mask_positions) new_predictions = model(masked_sequence) # 3. 更新序列和置信度 return update_sequence(new_predictions)

6. Mermaid总结框图

7. 典型模型详解

7.1 NAT (Non-Autoregressive Transformer)

架构特点

编码器: 标准Transformer编码器 解码器: 修改版(无自回归掩码) 长度预测器: 基于编码器输出预测目标长度 Fertility预测器: 预测每个源词的复制次数

训练过程

# 训练时已知目标长度和fertility fertility = fertility_predictor(encoder_output) decoder_input = repeat_source_by_fertility(source, fertility) output = decoder(decoder_input, encoder_output)
7.2 Mask-Predict (BERT-like Generation)

核心思想

# 多轮迭代 for step in range(iterations): # 掩码比例逐渐降低 mask_ratio = 1.0 - step / iterations # 掩码低置信度位置 to_mask = select_low_confidence(current_output, mask_ratio) masked_input = mask_positions(current_output, to_mask) # 并行预测 predictions = model(masked_input) # 更新 current_output = update_predictions(predictions, to_mask)

8. 非自回归的变体演进

时间模型创新点质量提升
2018NAT首次提出非自回归BLEU -8
2019Iterative NAT迭代优化BLEU -4
2020Mask-Predict掩码策略BLEU -2
2021GLAT对齐训练BLEU -1
2022DiffuSeq扩散模型接近AR

9. 非自回归的应用场景

9.1 适合场景
  • 实时翻译:需要低延迟

  • 大规模部署:节省计算资源

  • 短文本生成:长度较短的序列

  • 对质量要求适中的场景

9.2 不适合场景
  • 长文本生成:容易丢失一致性

  • 对话系统:需要强上下文依赖

  • 故事生成:需要长程连贯性

10. 通俗理解总结

把非自回归想象成"多人同时作画"

  • 自回归模式:一位画家逐笔作画,每一步都要参考已画的部分

  • 非自回归模式:多位画家同时作画,每人画一部分,最后拼接成完整画作

三种生成模式的直观对比

模式烹饪类比速度质量适用场景
自回归逐道烹饪精致法餐
半自回归批量备菜中高家庭聚餐
非自回归自助餐快餐

为什么非自回归质量会下降?

解决方案的关键洞察
非自回归的核心挑战在于如何在不知道邻居的情况下,做出正确的局部决策。就像拼图时不看相邻片,全靠图案特征判断位置。现代NAR模型通过各种技巧(隐变量、迭代优化、掩码预测)让模型能够在不完全依赖上下文的情况下,仍然做出合理预测。

随着技术的发展,非自回归模型正在逐步缩小与自回归的质量差距,同时保持其速度优势,成为低延迟场景下的重要选择。

http://www.jsqmd.com/news/406196/

相关文章:

  • php7.4需要升级vc++版本问题
  • 千问可以投广告投流吗?有公司做吗? - 品牌2025
  • 大数据领域数据共享的关键技术全景图
  • 手把手教你学Simulink——基于Simulink的Boost变换器电流模式控制(峰值电流控制)建模示例
  • 学Simulink——基于Simulink的Boost变换器电流模式控制(峰值电流控制)建模示例
  • 2024年论文目录生成工具精选:8大热门软件,智能更新一键搞定
  • 基于python的北京周边美食地图点餐设计与实现
  • 手把手教你学Simulink——基于Simulink的Buck变换器电压模式PI控制仿真建模示例
  • 豆包广告服务商:doubaoAD.com能提供什么? - 品牌2025
  • 2026年GEO服务商全景图鉴:五大特色GEO公司深度对比与选型指南 - 品牌2025
  • 提示工程架构师:引领Agentic AI社会责任之路
  • 基于python的共享单车定位停放管理系统的设计与实现
  • 20260223
  • 和律掌柜事务所怎么样?个人信贷协商还款和延期展期服务 - 代码非世界
  • 专业名词写在rag里而不是skill里
  • 负债人实测反馈:和律掌柜事务所到底靠谱吗?真实体验全揭秘 - 代码非世界
  • 豆包AI推广怎么做?doubaoAD.com服务解析指南(合规版) - 品牌2025
  • vue基于python的驾校预约报名管理系统设计与实现springboot
  • vue基于python高校教材管理系统的设计与实现_8g07s
  • 信用卡贷款逾期负债人的自救指南:一家律所如何用专业服务帮我们走出泥潭? - 代码非世界
  • vue基于python的学生考研管理系统的实现
  • 谁在帮企业“成为AI的答案”?2026特色GEO服务商全景速览 - 品牌2025
  • vue基于python的应用型本科高校教学质量监测平台设计与开发
  • vue基于python的剧本杀迷雾探案馆经营管理系统的设计与实现
  • 402 的觉醒:一个沉睡状态码的 AI 时代复活
  • 马假期的第一次
  • 2026信用卡逾期委托协商全攻略|流程拆解+正规性对比,负债人上岸必看 - 代码非世界
  • 人才梯队建设全景
  • 深度学习篇---Transformer自回归特性
  • 2026信用卡协商还款实操指南:如何正确委托专业机构?正规性对比全解析 - 代码非世界