当前位置: 首页 > news >正文

FRSMASH 全维度消融实验报告

实验设计

核心假设:记忆与逻辑是两个独立可调的维度

记忆能力 ← d_model(状态向量宽度), 越宽记住越多历史 逻辑能力 ← OpenASH 层数(L), 越深推理链越长 Fast 层 ← 替代 OpenASH 的轻量线性递推(快但逻辑弱)

实验矩阵(5组 × 20项, 每组 3000 步 ~110M tokens)

实验组固定变量验证问题
A. 逻辑轴H=512, NS=1L=2,4,6,8层数增加,loss 下降多少?
B. 记忆轴L=4, NS=1H=256,384,512,640d_model 增大,loss 下降多少?
C. 组件消融H=512完整/去OpenASH/去Slow哪个组件贡献更大?
D. 快慢比d=512(HybridFRSM)3F+1S/2F+2S/1F+1S/0F+1S快慢最优比例?
E. 混合比H=512,L=4(FRSMASH)4F/3F+1A/2F+2A/1F+3A/0F+4AFast 替代 OpenASH 掉多少 loss?

实验条件

  • GPU: RTX 4090 D 24GB
  • 数据: minimind_data pretrain_t2t_mini.jsonl, 30000 行缓存
  • 序列: T=384, B=64
  • 训练: 3000 steps × 64 × 384 ≈ 74M tokens/组
  • 优化器: AdamW, lr=5e-4, cosine decay
  • 总共: 20 组 × 74M tokens ≈ 1.5B tokens, 预估时间 3-4 小时

已有数据(400 步预测试)

E. 混合比(400 步, H=512, L=4)

配置浅层深层loss(400步)tok/s
0F+4A4×OpenASH4.50(最优)117K
2F+2A2×Fast2×OpenASH4.82(+0.32)118K
3F+1A3×Fast1×OpenASH4.80(+0.30)119K
4F+0A4×Fast5.01(+0.51)121K

结论:每多一层 OpenASH,loss 降 ~0.15;每多一层 Fast,速度微涨但 loss 涨 ~0.1。

FRSMASH-F vs FRSMASH-A 训练速度对比

BFRSMASH-F(Fast)FRSMASH-A(OpenASH)加速比
3221.8K tok/s51.4Ktok/s0.42x
6463.2Ktok/s61.9K tok/s1.02x
8852.7Ktok/s8.3K tok/s6.33x

FRSMASH-F vs FRSMASH-A 推理速度

模型tok/sms/token
FRSMASH-F3243.1ms
FRSMASH-A2474.1ms

预测结果

A. 逻辑轴(预测)

L参数预测 loss(3000步)趋势
2~27M~5.2弱逻辑
4~33M~4.5中等
6~39M~4.0强逻辑
8~45M~3.7推理深度最强

预测: OpenASH 层数每增加2层,loss 下降约0.4-0.5,呈对数递减趋势。

B. 记忆轴(预测)

H参数预测 loss(3000步)趋势
256~14M~5.5窄记忆
384~22M~5.0中等
512~33M~4.5宽记忆
640~47M~4.1最强记忆

预测: d_model 每增加 128,loss 下降约0.3-0.4,线性递减。

C. 组件消融(预测)

配置预测 loss说明
完整~4.5基准
去Slow(纯OpenASH)~4.8缺长程记忆
去OpenASH(纯Slow)~5.5缺逻辑推理

预测: OpenASH 贡献约0.7 loss,Slow 贡献约0.3 loss

D. 快慢比(预测)

配置预测 loss(3000步)
0F+1S(纯慢=V6)~5.5
1F+1S~5.2
2F+2S~5.0
3F+1S~4.9

预测: 3F+1S 最优——1 个 Slow 尺度足够选择性记忆,多 Fast 尺度增加即时预测能力。

E. 混合比(预测,3000 步)

配置预测 loss
4F+0A~5.2
3F+1A~4.8
2F+2A~4.7
1F+3A~4.6
0F+4A~4.5(最优)

预测: 2F+2A 性价比最高——loss 比 0F+4A 仅高 0.2,但大 batch 稳定性好得多。


实验代码 (ablation.py)

文件:F:\OpenASH2605\frsm_v6_moe\ablation.py

运行

F:\OpenASH\.venv\Scripts\python.exe F:\OpenASH2605\frsm_v6_moe\ablation.py

代码结构

# 数据: cached pretrain 30000 lines, T=384, B=64# 训练: 每组 3000 steps, AdamW lr=5e-4, cosine warmup# A. 逻辑轴: H=512, L=2,4,6,8forLin[2,4,6,8]:m=build_frsmash(vs,512,L,K=8)train_one(m,...)# B. 记忆轴: L=4, H=256,384,512,640forHin[256,384,512,640]:m=build_frsmash(vs,H,4,K=8)train_one(m,...)# C. 组件消融: 完整/去ASH/去Slowconfigs=[完整,OpenASH_only,Slow_only]forcfginconfigs:train_one(cfg,...)# D. 快慢比(HybridFRSM): d=512, 3F+1S,2F+2S,1F+1S,0F+1Sfornf,nsin[(3,1),(2,2),(1,1),(0,1)]:m=build_hybrid(vs,512,nf,ns,K=8)train_one(m,...)# E. 混合比(FRSMASH Hybrid): H=512, L=4fornf,nain[(4,0),(3,1),(2,2),(1,3),(0,4)]:m=build_hybrid_ash(vs,512,nf,na,K=8)train_one(m,...)

结果输出

训练结果自动保存到ablation_results.json,包含每组的:

  • final_loss: 最后 log interval 的平均 loss
  • losses: 所有 log interval 的 loss 列表(画图用)
  • time: 训练耗时
  • params: 参数量
  • config: 配置描述

辅助构建函数

函数用途
build_frsmash(vs,H,L)标准 FRSMASH(OpenASH backbone + Slow)
build_ash_only(vs,H,L)纯 OpenASH, 无 Slow memory
build_slow_only(vs,D)纯慢尺度, 无 OpenASH(≈V6)
build_hybrid(vs,D,nf,ns)HybridFRSM(Fast/Slow 尺度比)
build_hybrid_ash(vs,H,nf,na)FRSMASH Hybrid(Fast/OpenASH 混合)

附录: 关键模型文件索引

文件内容
frsm_v6a_fast.py原始 V6: 4尺度全内容门控,串行
frsmash.pyFRSMASH: OpenASH cummax + Slow 记忆
frsmash_f.pyFRSMASH-F: Fast 线性递推替换 cummax
frsm_linear.pyHybridFRSM: 快慢尺度分离
frsm_vs_transformer_report.mdDense MoE vs Transformer 全维度对比
frsm_evolution_report.md架构演进路线与速度对比
frsm_v6_moe/ablation.py消融实验脚本
http://www.jsqmd.com/news/1087784/

相关文章:

  • 技术解析与应用实战:PARAFAC三线性分解从原理到化学计量学实践
  • 3步打造智能媒体库:MetaTube插件让Jellyfin/Emby影片管理自动化
  • 信创来了,企业知识库系统怎么选:国产化替代的三个硬指标
  • 量子内点法加速线性优化:原理、实现与应用
  • SD-PPP:Photoshop AI插件革命,让Stable Diffusion创作效率提升300%
  • allchinabuy反向海淘代购集运系统全栈搭建方案
  • Windows离线语音转文字终极指南:TMSpeech让你的电脑变身智能字幕机
  • 基于逆向工程的高性能QQ音乐API解析框架:MCQTSS_QQMusic技术架构解析
  • CN2神经质心聚类:解决K-means抖动与初始化敏感问题
  • MySQL SQL注入攻击原理与全链路防护实战指南
  • 深度学习与符号回归协同发现物理定律的方法论
  • 明日方舟自动化工具终极指南:如何3小时变身为高效博士
  • 机器学习数据集+yolo数据集+深度学校数据集 yolo系列可用+卷及神经网络+目标检测+语义分割+姿态识别数据集 coco数据集 visdrone数据集
  • Monica vs Sider:浏览器 AI 插件哪家更好用?
  • 如何3分钟将Chrome变成专业Markdown阅读器?终极免费方案
  • I3C总线协议深度解析:CCC命令与寄存器配置实战指南
  • 国产RS485收发器新卷王:3毛钱搞定20KV ESD与军规温区,设计能省多少料?
  • 深入解析WPR机器人仿真:掌握ROS机器人开发的核心技术实践
  • 显示屏接口对比:DPI、DBI、DSI详解
  • 不是不会用,是没开对“开关”:ChatGPT隐藏功能深度解锁(含免费访问GPT-4.5测试通道方法)
  • B站视频下载神器:BilibiliDown 全面使用指南
  • 基于 MATLAB 的实时火灾检测系统设计与实现
  • Scikit-Learn特征选择三类方法原理、陷阱与工程落地
  • Linux休眠唤醒全流程解析
  • 无损音频格式之争:从ALAC、FLAC到APE,谁是你的音乐档案最佳归宿?
  • 实战解析:如何精准测量镍镉电池的剩余容量与健康度
  • 终极魔兽世界技能自动化指南:GSE高级宏编译器完全解析
  • 078、matplotlib 绘图实战:Figure/Axes 模型、样式定制、中文字体解决
  • Ridge、Lasso与Elastic Net正则化原理与实战
  • Akagi:麻雀AI助手终极指南 - 从零开始成为麻将高手