当前位置: 首页 > news >正文

其他

SDFT:持续学习中的自蒸馏与抗遗忘

简称全称论文题目提出时间提出团队 相关链接
SDFT 自蒸馏微调 (Self-Distillation Fine-Tuning) 《Self-Distillation Enables Continual Learning》 2026.01 MIT paper code
SDPO 自蒸馏策略优化 (Self-Distillation Policy Optimization) 《Reinforcement Learning via Self-Distillation》 2026.02 ETH Zurich paper code
OPSD 策略内自蒸馏 (On-Policy Self-Distillation) 《Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models》 2026.03 UCLA paper code
  • https://zhuanlan.zhihu.com/p/2004574638794089414

 

 

当前简历识别速度较慢主要原因有以下几点:

  1. 输入文本和输出文本较长,经过简单统计,模型输入约2300token,模型输出约2000token
  2. 错误使用视觉语言模型,在输入pdf时,会调用工具将pdf转为ocr(这一部分耗时较短),然后将提示词+文本作为输入送入视觉语言模型。
  3. 内网模型相对较慢,实测发现自行部署比调用内网api快约30%

通过以上分析发现,耗时的最大影响因素在于模型输出token过多,进一步分析发现,输出中工作经历、项目经历等超长文本占用大量token,而输出又是和输入完全一致的内容。因此一种简单可行的方案就是将长文本转化为对应位置的首尾索引。通过这种修改预计可以减少70-80%的耗时

向潘工提供了三种不同难度的修改方案,如下:
解决方案:

  1. 将视觉语言模型替换为同参数规模的语言模型,能加速将近一倍,准确率基本一致。(需要在内网新部署一个小参数量的语言模型)改动较小,但是无法做到目标的5s以内完成识别
  2. 在方案一的基础上优化实现方案,不直接输出工作经历和项目经历,输出首尾的索引,能大量减少输出token。预期能够做到5s左右完成识别。准确率基本一致(需要重新调整提示词和实现方式)预计三天左右的时间。
  3. 借鉴一些开源项目的经验,使用分阶段、并行、索引输出等方式加速。能做到2-3s完成识别,且预期准确率能有一定提升。(需要重新开发并部署,预期一周左右的时间)

经过和潘工沟通,由他们那边的工程师首先完成第1点和第2点优化。

潘工那边应用分段并行、索引输出的形式优化了处理逻辑,可以将处理耗时优化到10s以下。
选用的模型是Local-Qwen3-Coder-30B-D2C,该模型存在一定风险,但是按照他们那边的说法,内网没有部署同量级的Qwen3模型,经过测试该模型已经能基本满足需求。
当前他们那边使用频率不高,不方便申请资源,按照该模型使用一段时间,等使用量上来之后再去协调资源更换模型。

当前任务基本结束,任务关闭

提示词,遗传算法比要素分类法差3%~6%,一般在90%准确率,要素分类5轮训练选最优比一轮训练要高1个百分点左右

 

文档格式调整后,效果提升显著:

相关配置文档格式调整recall@5mrr@5
rerankerv3m3(原模型)-关键词检索优化1 × 0.901 0.768
rerankerv3m3(原模型)-关键词检索优化1 0.942+4.1% 0.830+6.2%
rerankerv3m3-ft(1211PustRanklossmagin03_1127data2_3epoch)-关键词检索优化1 × 0.915 0.787
rerankerv3m3-ft(1211PustRanklossmagin03_1127data2_3epoch)-关键词检索优化1 0.940+2.5% 0.857+7%

 

门铃用户70w,灰度比例10%,使用约3w5.每天处理日志和消息30条,总数105w,需要处理速度/24/3600=12.15条/s,当前部署5090.平均推理0.4s,每秒处理2.5条左右视频,所以需要12.12/2.5 * 2(双卡)=9.7张,所以需要10张

IPC图生文

当前家庭场景下使用的IPC设备,能实现画面记录与基础检测,但受限于内置小模型能力,难以满足用户对高效安防与精准信息的核心需求:
①无效信息过载:受限于小模型的能力,消息分类较为粗略,设备高频推送低价值通知,或产生误报消息,导致用户每日需要处理过多冗余消息,真正的关键事件易被淹没,筛选成本高
②录像检索低效:用户查找特定事件时,需逐帧翻看录像,耗时长效率低,尤其在紧急情况下难以快速定位证据
③场景适配性差:不同设备、不同用户的需求差异显著,小模型难以灵活适配因此我们计划IPC接入大模型,基于“录像/消息图生文总结”的产品化方案,解决用户痛点:
①云录像智能生成摘要,直观呈现录像内容
②智能搜索,通过输入“快递员”等的内容,快速定位到相关录像画面,方便用户查找录像
③AI概括告警消息,直观呈现触发报警的人物/事件




以下是2026.02月份大模型、智能体等最新研究进展

模型概览

名称 发布机构 是否开源 方向 资料 特性
Qwen3.5 通义千问 多模态、智能体 博客 文本、智能体能力与Qwen3相当,视觉能力超越Qwen3-VL
Qwen3-Coder-Next 通义千问 编程 博客 3B激活参数表现与10x-20x模型相当
GLM-5 智谱 文本 博客 \
MiniMax-M2.5 MiniMax 编程、智能体 \ \
Kimi-K2.5 月之暗面 多模态、智能体 技术报告 \
MiniCPM-o-4.5 OpenBMB 多模态 \ 9B小参数量高性能
GLM-OCR 智谱 文档理解 \ 刷新榜单,速度快
Seedance 2.0 字节跳动 视频生成 \ 可以生成15秒高质量视频
Qianfan-DeepResearch Pro 百度 DeepResearch智能体 \ 登顶DeepResearch Bench榜单
星火X2 科大讯飞 多模态 \ 基于全国产算力开发
Stable-DiffCoder 字节跳动 编程 论文 8B参数量高性能
Claude Opus 4.6 Anthropic 编程 \ \
Gemini 3.1 Pro Google 多模态 \ SWE-Bench性能榜首
Lyria 3 Google 音乐生成 \ 文本、图片、视频等生成30秒音乐
GPT-5.3-Codex OpenAI 编程 \ \
Claude code(25年) Anthropic 编程 \ 主流、实用的编程智能体之一
opencode SST团队 编程 github Claude code开源平替
Clawdbot(OpenClaw) 个人 智能体 github 一键安装,本地部署,功能强大

 

2DRoPE

https://developer.volcengine.com/articles/7540103665874632730

 

skill:

https://skillsmp.com/zh/search

 

我来帮你总结这个项目,用于简历和项目介绍准备。这是一个关于大模型文档增强训练的机器学习项目,主要工作内容如下:

项目概述

项目名称:文档Chunk增强训练与模型优化 项目周期:2026年2月-3月(约7天工作量) 核心目标:通过数据增强技术提升大模型在运维规范和知识图谱任务上的表现

主要工作内容

1. 数据增强与处理

  • Chunk改写增强:对100篇文档进行chunk级别的改写增强

    • 使用Local-Qwen3-235B-A22B-NoThink模型进行改写
    • 采用ms_swift框架和Qwen3-32B混合思考模型进行批量处理
    • 设计5个不同prompt,实现5种改写策略
  • QA数据集生成:使用easy-dataset工具

    • 训练集:8297个QA对(每240字符生成1个问题,保留得分>4.5的部分)
    • 测试集:9729个(包含开放题、简答题、多选题、单选题、判断题)

2. 模型训练与实验

  • 基底模型:32B_base模型
  • 实验设计:进行了多轮对比实验(t0-t9),验证不同增强策略效果
  • 关键发现:
    • 2次chunk增强+QA训练后,运维规范正确率提升4.6%
    • 叠加100篇文档训练,运维规范正确率最高达79.29%

3. 优化策略探索

  • 知识图谱专项训练:仅使用kg相关数据集,最优正确率达79.53%(比基底模型高9.21%)
  • Chunk长度优化:对比512-8192 tokens不同长度的训练效果
  • Batch size调优:在相同batch_token下比较不同配置
  • 混合策略:随机混合不同长度chunk进行训练

技术亮点

  1. 多模型协同:结合235B和32B模型优势,平衡效果与效率
  2. 数据增强创新:5种prompt策略实现多样化改写
  3. 系统化实验:设计完整的对比实验体系,验证各策略有效性
  4. 显著性能提升:最终在kg数据集上实现9.21%的准确率提升

项目成果

  • 成功构建完整的文档增强训练流程
  • 建立了系统的模型评估体系
  • 实现了模型性能的显著提升(+9.21%)
  • 为后续模型优化提供了数据和方法论基础

dumaqi

 

iou,损失函数针对正方形的优化;

probiou

主干的修改;

标准卷积Conv同时实现空间下采样 h , w → h / 2 , w / 2 h 和通道变化 c → 2 c,计算成本高。
SCDown将空间和通道解耦。先通过 1 × 1 的逐点卷积调节通道数,再通过 3 × 3 的深度卷积做空间下采样,在降低计算成本的同时最大限度保留信息。mAP 0.993->0.99 耗时9.79->7.92

attn模块的优化;area_atten->effecient attention

A2C2f实际替换为C3K2,减少attn
优化多余的2个attn为1个


obb nms-free的开发; 
超参的修改;reg_max

 

分类模型主干 - 224分辨率+版本单分类

 

 

 

http://www.jsqmd.com/news/607762/

相关文章:

  • HOJ实战:从零部署到功能扩展的完整开发指南
  • Medusa API参考:核心函数与类详解
  • 济南松卡自动化科技产品质量好吗,在这些地区有哪些客户案例? - 工业品网
  • Sea Protocol事件系统完全指南:实时监控交易状态的终极解决方案
  • Wux Weapp 布局组件终极指南:Grid、Flex 与响应式设计完全解析
  • 一文读懂DoIP协议:从车辆发现到诊断通信的全链路解析
  • 如何快速搭建个人免签支付系统:XPay高性能架构全解析
  • SAP S/4HANA迁移后,别再找XD01了!手把手教你用BP事务码搞定供应商主数据
  • 2026汕头全屋定制避坑清单:3个硬指标必看 - 精选优质企业推荐榜
  • 3个秘诀让你的在线幻灯片制作效率提升一倍:PPTist全功能指南
  • Wux Weapp 性能优化终极指南:如何减少包体积提升加载速度
  • 终极DockerUI多语言界面配置指南:轻松实现国际化支持
  • 别让误操作背锅!用泛微E10的registerInterceptEvent给你的‘批准’按钮加个‘保险丝’
  • Astra在微服务架构中的应用:大规模API安全测试的最佳实践
  • PvZ Toolkit:重塑植物大战僵尸体验的开源修改器 | 玩家与开发者的全能工具集
  • OpenClaw备份方案:Kimi-VL-A3B-Thinking模型与技能定期同步
  • 3种数据备份方案+5大隐私保护策略:微信聊天记录永久保存指南
  • 深入解析Virtio与Vhost在QEMU中的高效协作架构
  • 选错=白花钱!污水处理设备推荐企业避坑指南与采购清单 - 品牌推荐大师1
  • Python项目setup.py完整指南:如何正确配置开源许可证和打包工具
  • MoCo训练完全指南:从入门到精通的10个常见错误与解决方案
  • 2026年甘肃民办学校哪家好 覆盖不同家庭需求 师资与升学双保障 - 深度智识库
  • 5步解决魔兽争霸3现代适配难题:面向怀旧玩家的技术优化指南
  • 如何实现Karmada多集群编排:API Server与Controller Manager的终极协同架构指南
  • andrej-karpathy-skills背后的故事:从Karpathy观察到实践应用
  • 无监督去噪演进史:从N2N、N2V到HQ-SSL的核心思想与实战解析
  • CSStickyHeaderFlowLayout与UICollectionViewFlowLayout的终极对比:打造完美iOS滚动体验
  • 顶刊复现:基于优化反演技术的水面舰艇自适应跟踪控制Matlab代码
  • 突破限制:百度网盘Mac版性能优化实战指南
  • 分布式系统线性一致性测试:Porcupine工具完全指南