当前位置: 首页 > news >正文

从机械转行互联网CV后,我决定再转多模态大模型,我的GitHub学习日志,带你避坑多模态转型之路!

分享自己从机械专业背景出发,经历工业缺陷检测到互联网公司CV算法岗位,如今转向大模型/多模态方向的学习历程。作者创建了一个GitHub仓库"From0to1-MLLM-StudyLog",按周记录学习过程和踩坑经验,强调工程实践和部署。文章鼓励非AI科班出身、对大模型感兴趣但不知如何下手的CV从业者,可以边学边记,慢慢靠拢这一趋势,并通过GitHub等工具留下学习轨迹,共同成长。


先简单自我介绍一下:

本科是机械专业出身;

第一份工作做工业缺陷检测,主要是传统机器视觉 + 深度学习;

现在在互联网公司做计算机视觉算法(分类、检测、分割、OCR 外加 TensorRT/OpenVINO 部署)。

绕了一大圈,其实一直都是在「看图」这条路上。所以,我给自己定了一个新的方向:

在现有 CV 算法的基础上,系统性地转向大模型 / 多模态方向。

目前还在探索阶段,谈不上“转行成功”,但我不想等到完全确定了才开始记录。

于是我先做了一件比较笨但踏实的事:

把自己从 0 开始学多模态大模型的过程,全部整理成一个 GitHub 仓库,边学边记,边踩坑边写。

GitHub 仓库:From0to1-MLLM-StudyLog

👉 仓库地址:

https://github.com/wz940216/From0to1-MLLM-StudyLog.git

这个仓库主要是我的「多模态大模型学习日志」,特点有几点:

从机械专业转过来的视角: 不会扯太虚的理论,更偏工程、偏“怎么跑起来、怎么部署”。

按周记录: 仓库按 Week1–Week24 组织,每周会尽量放上:

覆盖方向大致包括:

目前仓库还在持续更新,很多东西也在边学边补充,不是教程,更像给自己和同样想转型的人留一份可以复盘的轨迹。

想说给同样在纠结「要不要转大模型」的你

我不是科班 AI 出身,中间也走了机械 → 工业视觉 → 互联网 CV 这一大圈;

现在开始正式补多模态和大模型,说早不早,说晚不晚。

如果你也:

本科专业不对口;

在传统 CV / 工业视觉 / 算法岗位;

对大模型很感兴趣,又有点不知道从哪下手;

可以先不用给自己「转行成功」的压力,我们可以先做两件小事:

承认这是趋势,允许自己慢慢靠过去;

让学习过程有迹可循——不管是记在本子上,还是像我一样丢在 GitHub 上。

结语:抓住大模型时代的职业机遇

AI大模型的发展不是“替代人类”,而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作,却催生了更多需要“技术+业务”交叉能力的高端岗位。对于求职者而言,想要在这波浪潮中立足,不仅需要掌握Python、TensorFlow/PyTorch等技术工具,更要深入理解目标行业的业务逻辑(如金融的风险控制、医疗的临床需求),成为“懂技术、懂业务”的复合型人才。

无论是技术研发岗(如算法工程师、研究员),还是业务落地岗(如产品经理、应用工程师),大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情,紧跟技术趋势,就能在AI大模型时代找到属于自己的职业新蓝海。

最近两年大模型发展很迅速,在理论研究方面得到很大的拓展,基础模型的能力也取得重大突破,大模型现在正在积极探索落地的方向,如果与各行各业结合起来是未来落地的一个重大研究方向

大模型应用工程师年包50w+属于中等水平,如果想要入门大模型,那现在正是最佳时机

2025年Agent的元年,2026年将会百花齐放,相应的应用将覆盖文本,视频,语音,图像等全模态

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

给大家推荐一个大模型应用学习路线

这个学习路线的具体内容如下:

第一节:提示词工程

提示词是用于与AI模型沟通交流的,这一部分主要介绍基本概念和相应的实践,高级的提示词工程来实现模型最佳效果,以现实案例为基础进行案例讲解,在企业中除了微调之外,最喜欢的就是用提示词工程技术来实现模型性能的提升

第二节:检索增强生成(RAG)

可能大家经常会看见RAG这个名词,这个就是将向量数据库与大模型结合的技术,通过外部知识来增强改进提升大模型的回答结果,这一部分主要介绍RAG架构与组件,从零开始搭建RAG系统,生成部署RAG,性能优化等

第三节:微调

预训练之后的模型想要在具体任务上进行适配,那就需要通过微调来提升模型的性能,能满足定制化的需求,这一部分主要介绍微调的基础,模型适配技术,最佳实践的案例,以及资源优化等内容

第四节:模型部署

想要把预训练或者微调之后的模型应用于生产实践,那就需要部署,模型部署分为云端部署和本地部署,部署的过程中需要考虑硬件支持,服务器性能,以及对性能进行优化,使用过程中的监控维护等

第五节:人工智能系统和项目

这一部分主要介绍自主人工智能系统,包括代理框架,决策框架,多智能体系统,以及实际应用,然后通过实践项目应用前面学习到的知识,包括端到端的实现,行业相关情景等

学完上面的大模型应用技术,就可以去做一些开源的项目,大模型领域现在非常注重项目的落地,后续可以学习一些Agent框架等内容

上面的资料做了一些整理,有需要的同学可以下方添加二维码获取(仅供学习使用)

http://www.jsqmd.com/news/779675/

相关文章:

  • 论文AIGC检测超标?一键去除论文AI率,只需要几分钟! - 我要发一区
  • 哪个降AI率工具好用?2026年5月最新测评,深度拆解降AI原理! - 我要发一区
  • 全网盘点降AI率工具:实测知网降AI效果,嘎嘎降遥遥领先! - 我要发一区
  • 基于JSP内置对象的服务器端表单验证实验
  • 我们训练了一个专测金融软件的AI模型,结果出乎意料
  • 当AI写小说——一个被严重低估的工程化战场
  • 别把 `temperature`、`top-k`、`top-p`、`beam search` 当成四个并列旋钮:很多生成问题,先调错的是“分布”还是“搜索”
  • 如何使用AI从文档中准确提取所有内容
  • 多模态情感分析中的模态缺失挑战与PRLF框架
  • 视频预测与深度估计的联合优化方法解析
  • AI率高于80%?2026年top10降AI软件汇总,3分钟降AI率? - 我要发一区
  • 2026降AI率软件TOP10:aigc痕迹一键去除,AI率低于20%! - 我要发一区
  • 常用代码知识
  • 科技晚报|2026年5月8日:AI 开始争夺默认入口与治理层
  • 如何在5分钟内为Unity游戏安装XUnity.AutoTranslator:完整自动翻译插件指南
  • 力扣-最后一个单词长度(58)
  • 探讨CSS复合属性的实际应用与交互设计
  • K8S工具增强
  • FPGA信号源设计避坑:10位地址16位数据的正弦查表法,时序和资源怎么权衡?
  • V-REX框架:多步视觉推理评估的创新解决方案
  • 降AI软件哪个好用?看完这篇选工具指南,立省100+降ai费用! - 我要发一区
  • 在 Taotoken 控制台回顾与分析团队月度大模型用量消耗
  • 基于云端OpenClaw的情绪互动机器人系统-Milk-V Duo S + 机器人 端开发(5)
  • 基于Compose Multiplatform的跨平台AI对话应用开发实战
  • 深度神经网络中子高斯变量与极端激活问题解析
  • 机器学习40讲-10:特征预处理
  • AI对话导出神器 - DS随心转
  • 四川盛世钢联国际贸易有限公司钢板频道 -中板|热卷|厚板|薄板|普板 - 四川盛世钢联营销中心
  • V-REX框架:评估视觉推理模型的渐进式问题链方法
  • ARM TechCon演讲提案撰写指南:从技术实践到成功分享