当前位置：首页 > news >正文

其他

news 2026/5/28 7:18:43

SDFT：持续学习中的自蒸馏与抗遗忘

简称	全称	论文题目	提出时间	提出团队	相关链接
SDFT	自蒸馏微调 (Self-Distillation Fine-Tuning)	《Self-Distillation Enables Continual Learning》	2026.01	MIT	paper code
SDPO	自蒸馏策略优化 (Self-Distillation Policy Optimization)	《Reinforcement Learning via Self-Distillation》	2026.02	ETH Zurich	paper code
OPSD	策略内自蒸馏 (On-Policy Self-Distillation)	《Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models》	2026.03	UCLA	paper code

https://zhuanlan.zhihu.com/p/2004574638794089414

当前简历识别速度较慢主要原因有以下几点：

输入文本和输出文本较长，经过简单统计，模型输入约2300token，模型输出约2000token
错误使用视觉语言模型，在输入pdf时，会调用工具将pdf转为ocr（这一部分耗时较短），然后将提示词+文本作为输入送入视觉语言模型。
内网模型相对较慢，实测发现自行部署比调用内网api快约30%

通过以上分析发现，耗时的最大影响因素在于模型输出token过多，进一步分析发现，输出中工作经历、项目经历等超长文本占用大量token，而输出又是和输入完全一致的内容。因此一种简单可行的方案就是将长文本转化为对应位置的首尾索引。通过这种修改预计可以减少70-80%的耗时

向潘工提供了三种不同难度的修改方案，如下：
解决方案：

将视觉语言模型替换为同参数规模的语言模型，能加速将近一倍，准确率基本一致。（需要在内网新部署一个小参数量的语言模型）改动较小，但是无法做到目标的5s以内完成识别
在方案一的基础上优化实现方案，不直接输出工作经历和项目经历，输出首尾的索引，能大量减少输出token。预期能够做到5s左右完成识别。准确率基本一致（需要重新调整提示词和实现方式）预计三天左右的时间。
借鉴一些开源项目的经验，使用分阶段、并行、索引输出等方式加速。能做到2-3s完成识别，且预期准确率能有一定提升。（需要重新开发并部署，预期一周左右的时间）

经过和潘工沟通，由他们那边的工程师首先完成第1点和第2点优化。

潘工那边应用分段并行、索引输出的形式优化了处理逻辑，可以将处理耗时优化到10s以下。
选用的模型是Local-Qwen3-Coder-30B-D2C，该模型存在一定风险，但是按照他们那边的说法，内网没有部署同量级的Qwen3模型，经过测试该模型已经能基本满足需求。
当前他们那边使用频率不高，不方便申请资源，按照该模型使用一段时间，等使用量上来之后再去协调资源更换模型。

当前任务基本结束，任务关闭

提示词，遗传算法比要素分类法差3%~6%，一般在90%准确率，要素分类5轮训练选最优比一轮训练要高1个百分点左右

文档格式调整后，效果提升显著：

相关配置	文档格式调整	recall@5	mrr@5
rerankerv3m3（原模型）-关键词检索优化1	×	0.901	0.768
rerankerv3m3（原模型）-关键词检索优化1	√	0.942+4.1%	0.830+6.2%
rerankerv3m3-ft（1211PustRanklossmagin03_1127data2_3epoch）-关键词检索优化1	×	0.915	0.787
rerankerv3m3-ft（1211PustRanklossmagin03_1127data2_3epoch）-关键词检索优化1	√	0.940+2.5%	0.857+7%

门铃用户70w，灰度比例10%，使用约3w5.每天处理日志和消息30条，总数105w，需要处理速度/24/3600=12.15条/s，当前部署5090.平均推理0.4s，每秒处理2.5条左右视频，所以需要12.12/2.5 * 2（双卡）=9.7张，所以需要10张

IPC图生文

当前家庭场景下使用的IPC设备，能实现画面记录与基础检测，但受限于内置小模型能力，难以满足用户对高效安防与精准信息的核心需求：
①无效信息过载：受限于小模型的能力，消息分类较为粗略，设备高频推送低价值通知，或产生误报消息，导致用户每日需要处理过多冗余消息，真正的关键事件易被淹没，筛选成本高
②录像检索低效：用户查找特定事件时，需逐帧翻看录像，耗时长效率低，尤其在紧急情况下难以快速定位证据
③场景适配性差：不同设备、不同用户的需求差异显著，小模型难以灵活适配因此我们计划IPC接入大模型，基于“录像/消息图生文总结”的产品化方案，解决用户痛点：
①云录像智能生成摘要，直观呈现录像内容
②智能搜索，通过输入“快递员”等的内容，快速定位到相关录像画面，方便用户查找录像
③AI概括告警消息，直观呈现触发报警的人物/事件

以下是2026.02月份大模型、智能体等最新研究进展

模型概览

名称	发布机构	是否开源	方向	资料	特性
Qwen3.5	通义千问	是	多模态、智能体	博客	文本、智能体能力与Qwen3相当，视觉能力超越Qwen3-VL
Qwen3-Coder-Next	通义千问	是	编程	博客	3B激活参数表现与10x-20x模型相当
GLM-5	智谱	是	文本	博客	\
MiniMax-M2.5	MiniMax	是	编程、智能体	\	\
Kimi-K2.5	月之暗面	是	多模态、智能体	技术报告	\
MiniCPM-o-4.5	OpenBMB	是	多模态	\	9B小参数量高性能
GLM-OCR	智谱	是	文档理解	\	刷新榜单，速度快
Seedance 2.0	字节跳动	否	视频生成	\	可以生成15秒高质量视频
Qianfan-DeepResearch Pro	百度	否	DeepResearch智能体	\	登顶DeepResearch Bench榜单
星火X2	科大讯飞	否	多模态	\	基于全国产算力开发
Stable-DiffCoder	字节跳动	否	编程	论文	8B参数量高性能
Claude Opus 4.6	Anthropic	否	编程	\	\
Gemini 3.1 Pro	Google	否	多模态	\	SWE-Bench性能榜首
Lyria 3	Google	否	音乐生成	\	文本、图片、视频等生成30秒音乐
GPT-5.3-Codex	OpenAI	否	编程	\	\
Claude code（25年）	Anthropic	否	编程	\	主流、实用的编程智能体之一
opencode	SST团队	是	编程	github	Claude code开源平替
Clawdbot(OpenClaw)	个人	是	智能体	github	一键安装，本地部署，功能强大

2DRoPE

https://developer.volcengine.com/articles/7540103665874632730

skill:

https://skillsmp.com/zh/search

我来帮你总结这个项目，用于简历和项目介绍准备。这是一个关于大模型文档增强训练的机器学习项目，主要工作内容如下：

项目概述

项目名称：文档Chunk增强训练与模型优化项目周期：2026年2月-3月（约7天工作量）核心目标：通过数据增强技术提升大模型在运维规范和知识图谱任务上的表现

主要工作内容

1. 数据增强与处理

Chunk改写增强：对100篇文档进行chunk级别的改写增强
- 使用Local-Qwen3-235B-A22B-NoThink模型进行改写
- 采用ms_swift框架和Qwen3-32B混合思考模型进行批量处理
- 设计5个不同prompt，实现5种改写策略
QA数据集生成：使用easy-dataset工具
- 训练集：8297个QA对（每240字符生成1个问题，保留得分>4.5的部分）
- 测试集：9729个（包含开放题、简答题、多选题、单选题、判断题）

2. 模型训练与实验

基底模型：32B_base模型
实验设计：进行了多轮对比实验（t0-t9），验证不同增强策略效果
关键发现：
- 2次chunk增强+QA训练后，运维规范正确率提升4.6%
- 叠加100篇文档训练，运维规范正确率最高达79.29%

3. 优化策略探索

知识图谱专项训练：仅使用kg相关数据集，最优正确率达79.53%（比基底模型高9.21%）
Chunk长度优化：对比512-8192 tokens不同长度的训练效果
Batch size调优：在相同batch_token下比较不同配置
混合策略：随机混合不同长度chunk进行训练

技术亮点

多模型协同：结合235B和32B模型优势，平衡效果与效率
数据增强创新：5种prompt策略实现多样化改写
系统化实验：设计完整的对比实验体系，验证各策略有效性
显著性能提升：最终在kg数据集上实现9.21%的准确率提升

项目成果

成功构建完整的文档增强训练流程
建立了系统的模型评估体系
实现了模型性能的显著提升（+9.21%）
为后续模型优化提供了数据和方法论基础

dumaqi

iou，损失函数针对正方形的优化；

probiou

主干的修改；

标准卷积Conv同时实现空间下采样 h , w → h / 2 , w / 2 h 和通道变化 c → 2 c，计算成本高。
SCDown将空间和通道解耦。先通过 1 × 1 的逐点卷积调节通道数，再通过 3 × 3 的深度卷积做空间下采样，在降低计算成本的同时最大限度保留信息。mAP 0.993->0.99 耗时9.79->7.92

attn模块的优化；area_atten->effecient attention

A2C2f实际替换为C3K2，减少attn
优化多余的2个attn为1个

obb nms-free的开发；
超参的修改；reg_max

分类模型主干 - 224分辨率+版本单分类

查看全文

http://www.jsqmd.com/news/607762/