当前位置: 首页 > news >正文

多模态数据提取:微调与少样本提示

这是一篇偏实践向的记录,主要整理我在「用多模态大模型做发票数据结构化提取」过程中踩过的坑、验证过的方案,以及一些比较稳妥的落地思路。整体目标只有一个:让模型稳定输出可直接用的 JSON,而不是“看起来很聪明”的一大段解释。

背景与目标

实际业务里,我们经常会遇到这种需求:

  • 输入:一张发票图片(拍照 / 扫描,质量参差不齐)

  • 输出:结构化业务数据,比如

    • 供应商名称
    • 发票号、日期
    • 明细行(商品名、数量、单位、金额等)
  • 格式要求:标准 JSON,可直接进数据库或走 RPA

传统 OCR + 规则方案在版式复杂、字段漂移时非常脆弱,而多模态大模型(VLM)正好补上了这一块:

  • 能同时理解图像和指令
  • 能在“看懂”的基础上做结构化输出

我们主要用以下模型做测试:Gemini 1.5 Pro、GPT-4o、Llama‑3.2‑Vision、Qwen2‑VL 等。

多模态微调数据

1. 一个典型的数据样例

下面这个结构,基本就是多模态微调或评测时最小且有效的单元

{"contents":[{"role":"user","parts":[{"fileData":{"mimeType":"image/jpeg","fileUri":"/static/example_invoice.jpe
http://www.jsqmd.com/news/718227/

相关文章:

  • 区块链智能合约自动化测试框架设计
  • QQ音乐加密文件解锁指南:如何用qmcdump实现音乐格式自由转换
  • 2026年AI工具助你高效搞定繁琐的论文降重 - 降AI实验室
  • 保姆级教程:用VS2019给NX1980配二次开发环境,一次搞定不报错
  • C语言(4)
  • Chapter 3:Spring AI 并行执行模式(ParallelAgent)
  • 我手写了一个 Java 内存数据库(四):索引引擎、SQL 解析与总结
  • 2026生成式AI搜索优化:GEO监测工具选型与实践
  • 百元键盘怎么选?这三款闭眼入不踩雷
  • 如何用 Web Workers 开启子线程处理复杂的密集型计算
  • Qwen3-4B-Instruct-2507轻量模型一键部署教程:3步完成Ubuntu环境配置
  • Phi-3.5-mini-instruct应用场景:自媒体内容润色、周报提炼、技术博客辅助写作
  • Joy-Con Toolkit完整指南:免费开源工具让你的Switch手柄焕然一新
  • LoRA技术解析:大模型高效微调与部署实践
  • 我手写了一个 Java 内存数据库(三):删除、合并与范围查询
  • Mac Mouse Fix深度技术解析:开源鼠标驱动优化与高级配置指南
  • 摩托车尾箱服务商
  • Flowise开源安全审计:依赖漏洞扫描与SBOM生成实践指南
  • 答辩PPT别熬夜了:我用百考通AI高效搞定毕业答辩
  • 用STM32F103C8T6和HC-05蓝牙模块DIY智能门锁,手把手教你实现手机远程改密码(附完整代码)
  • 源于中国,进击全球:安波福发布“中国定义”战略及多款智能终端解决方案
  • 终极指南:三步搞定网易云NCM加密音乐,实现跨平台自由播放
  • Canlyzer从0-1搭建环境
  • Qwen3.5-9B构建企业知识网络:智能检索与问答系统
  • CentOS 7.6上部署BeeGFS 7.2.4:从单节点到双节点高可用集群的完整避坑指南
  • 魔兽争霸3闪退修复终极指南:WarcraftHelper让你的经典游戏重生
  • 想把你的ASIC设计塞进FPGA里跑起来?手把手拆解硬件仿真工具的前端“黑盒”:从RTL代码到门级网表
  • B站会员购抢票终极指南:如何用开源工具轻松抢到心仪门票
  • 论文初稿AI率90%怎么救?4步实操教你一次性降到10%以下(附工具测评)
  • 探索魔兽争霸新纪元:WarcraftHelper如何让经典游戏焕发新生