当前位置: 首页 > news >正文

Course15:视觉大模型与多模态理解

Qwen 多模态模型中图片 Token ID 与向量的核心理解

文本 Token 是 “语言的最小语义单元”,图片 Token 是 “视觉的最小特征单元”

—— 两者最终都会被映射到同一维度的向量空间,让模型能 “读懂” 图文的关联语义。

维度文本 Token(如 Qwen 的中文分词)图片 Token(Qwen-VL 的视觉 Token)
拆分方式按语义拆分(字 / 词 / 子词,如 “手机”→[手,机])按空间特征拆分(网格切块→特征编码)
Token ID 含义对应词典里的语义符号(如 ID=1001→“手”)对应视觉特征的编码索引(无字面含义)
向量本质语义向量(代表这个词的含义)视觉特征向量(代表这个区域的视觉特征)

文本 Token 是 “语言积木”,图片 Token 是 “视觉积木”,向量是 “积木的特征描述”,Qwen-VL 就是用这些积木拼出图文关联的逻辑。

Qwen-VL 中图片 Token 的生成过程(核心逻辑)

每个 Patch 通过卷积 / Transformer 层提取视觉特征(比如 768 维的特征向量,代表这个 Patch 的颜色、纹理、边缘、形状等信息);

• Qwen-VL 内置一个 “视觉词典”(和文本词典类似,但存的是视觉特征模板),把每个 Patch 的特征匹配到词典中最接近的模板,得到一个视觉 Token ID;

Token ID 是 “索引”,向量是 “本质”

Token ID 只是一个数字标签(比如 ID=20001),本身无意义,只是用来查 “视觉词典”; ◦ 向量才是核心:768 维的向量,每一个维度代表一个视觉特征维度,所有维度组合起来,就唯一描述了这个 Patch 的视觉特征。

图片 Token 向量和文本 Token 向量 “在同一语义空间”

Qwen-VL 的核心设计是 “图文对齐”:

  • 训练时,模型会学习 “文本 Token 向量” 和 “图片 Token 向量” 的关联(比如文本 “红色苹果” 的向量,和图片中 “苹果 Patch” 的向量会被拉到相近位置);

  • 推理时,模型能通过向量的相似度,理解 “文字描述” 和 “图片内容” 的对应关系。

VLM在车辆保险理赔的应用

视频基础模型

视频多模态注释框架 VidCap

InternVideo2 预训练

模型表现:时间动作识别

模型表现:混淆动作识别

模型表现:视频中心对话

MinerU

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或

JSON 格式。由上海人工智能实验室OpenDataLab 团队 开发。

核心技术

• 布局检测:基于 LayoutLMv3 微调,识别文本、表格、图片等区域。

• 公式识别:使用 YOLOv8 检测公式,UniMERNet 模型转换 LaTeX。

• OCR 增强:采用 PaddleOCR 提高文本识别准确率。

应用场景

• 大模型训练:为书生·浦语等模型提供高质量语料。

• 学术研究:提取论文、教材中的关键信息。

• 法律与金融:解析合同、研报等结构化数据。

MinerU:网页信息解析

CASE:VLM在寿险里的应用,多语言识别

CASE:VLM在车险里的应用

CASE:车辆剐蹭视频理解

http://www.jsqmd.com/news/480714/

相关文章:

  • engine-cli:Surging微服务生态工程化利器,一键搭建高效开发环境
  • LightRAG VS GraphRAG
  • 2026靠谱非标不锈钢钣金实力厂家大揭秘,钣金加工选厂攻略,口碑好的钣金加工直销厂家推荐排行贝赛特物流发展迅速,实力雄厚 - 品牌推荐师
  • 选购四害消杀公司要注意啥,永满科技算有实力的吗 - 工业品牌热点
  • Java 面试题及答案整理(2026金三银四速成版)
  • [C++][多线程]原子操作
  • SEGGER的embOS也推出动态APP用法emApps
  • 别再瞎找了!10个AI论文软件测评:全学科适配,开题报告+毕业论文全搞定
  • 2026年全国拟上市公司股权激励服务排名,靠谱品牌推荐 - 工业设备
  • 【新能源电站运维】运维无效出工减少30%、设备寿命延长3-5年:功率预测如何重构新能源场站成本结构?
  • 专科生也能用!千笔AI,碾压级的AI论文工具
  • Prompt提示词设计工程:从原则到实战的系统性方法论(附模板与调试工具)
  • 揭开Airsim仿真自动UAV巡航无碰撞源码的神秘面纱
  • 三分钟看懂财报的方法 - 智慧园区
  • 吐血推荐! AI论文写作软件 千笔ai写作 VS PaperRed,专科生专属神器!
  • AI产品经理核心能力全景图:从需求洞察到产品落地的全链路实战手册
  • 【高精度气象】光伏运维的“清洗经济学”:精准辐照预报如何让每一块面板都在最佳时刻“吐纳”
  • 从此告别拖延 10个降AIGC平台全场景通用测评与推荐
  • 功率波动平抑:从算法到并网标准验证
  • 【高精度气象】一场暴雨影响多少赛事赞助?赛事保险正在依赖分钟级预报止损
  • 讲讲拟上市公司股票期权激励,靠谱的品牌有哪些可推荐? - mypinpai
  • 2026年全国矫平机品牌制造厂技术强排名,这些厂家值得关注 - myqiye
  • 干货来了:本科生专属降AI率平台,千笔·专业降AI率智能体 VS 锐智 AI
  • 细聊2026年厚板材料整平机,安徽中诺一智能机械有限公司品牌性价比高不高? - 工业品牌热点
  • 2026年分板机制造商费用大揭秘,EXE亿协性价比超高 - myqiye
  • 聊聊2026复合式分板机生产厂 哪家技术强 如何选择 - mypinpai
  • 天猫超市卡回收方法大揭秘 - 团团收购物卡回收
  • 全国范围内矫平机怎么选择,稳定性好和适合批量生产的品牌 - 工业推荐榜
  • 天猫超市卡快速回收攻略,一分钟搞定! - 团团收购物卡回收
  • 2026年全国压花机制造厂排名,推荐质量好、设备先进且经验丰富的品牌 - 工业品牌热点