当前位置: 首页 > news >正文

多模态AI:当机器真正“看懂”世界

从单一文本到图像、语音、视频的融合理解,多模态大模型正在开启人工智能的“通感”时代。

在上一篇文章中,我讨论了AI从规模竞赛转向智能效率的趋势。今天,我们把镜头对准一个更激动人心的方向——多模态

如果说纯文本模型让AI学会了“阅读”,那么多模态模型则让AI同时拥有了“眼睛”和“耳朵”。2025年的一个显著变化是:顶尖多模态模型(GPT-4V、Gemini Pro 1.5、Claude 3 Vision)已经能够像人类一样,在一张图表、一份手绘草稿、甚至一段屏幕录像中提取信息,并做出有逻辑的回应。

但理论归理论,我们不妨直接写一段代码,亲手让一个开源多模态模型完成“看图问答”。

代码实战:用开源模型实现图像理解

我们选用 Salesforce 开发的BLIP-2模型(可以在普通GPU甚至CPU上运行)。它会接收一张图片和一个文本问题,然后生成答案。

环境准备

bash

pip install transformers pillow torch

完整代码(图像问答)

python

from transformers import Blip2Processor, Blip2ForConditionalGeneration from PIL import Image import torch # 1. 加载模型和处理器(首次运行会下载约3GB) processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b") model = Blip2ForConditionalGeneration.from_pretrained( "Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32, device_map="auto" ) # 2. 准备图像(这里使用一张网络图片示例,你也可以换成自己的照片) image_url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/sample_image.jpg" # 也可以从本地加载: image = Image.open("your_photo.jpg") import requests from io import BytesIO response = requests.get(image_url) image = Image.open(BytesIO(response.content)).convert("RGB") # 3. 提问(多模态的核心:图像+文本联合理解) question = "What is this animal doing?" # 4. 将图像和问题一起编码 inputs = processor(image, question, return_tensors="pt").to(model.device) # 5. 生成答案 out = model.generate(**inputs, max_new_tokens=50) answer = processor.decode(out[0], skip_special_tokens=True) print(f"问: {question}") print(f"答: {answer}")

运行后会输出类似:

text

问: What is this animal doing? 答: The dog is lying on the grass.

进阶:支持中文的多模态模型

如果你需要中文问答,可以换用Qwen-VL-ChatCogVLM。下面给出一个使用CogVLM(中文/英文均支持)的示例:

python

# 需要先安装: pip install transformers accelerate bitsandbytes from transformers import AutoModelForCausalLM, LlamaTokenizer model_name = "THUDM/cogvlm-chat-hf" tokenizer = LlamaTokenizer.from_pretrained("lmsys/vicuna-7b-v1.5") model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True, device_map="auto" ) image = Image.open("your_image.jpg") question = "图片里有什么物体?它们的位置关系怎样?" # CogVLM的对话格式 inputs = model.build_conversation_input_ids(tokenizer, query=question, history=[], images=[image]) inputs = {k: v.to(model.device) for k, v in inputs.items()} output = model.generate(**inputs, max_new_tokens=200) answer = tokenizer.decode(output[0], skip_special_tokens=True) print(answer)

这段代码揭示了什么?

  1. 跨模态对齐:模型内部将图像分割成视觉token,与文本token映射到同一个语义空间,然后统一推理。这是多模态智能的基石。

  2. 小样本泛化:BLIP-2没有见过这张具体的狗照片,却能准确回答“狗在做什么”——说明它学到了“躺”、“草地”等抽象概念与视觉特征的关联。

  3. 硬件友好:BLIP-2的2.7B版本在普通游戏显卡(8GB显存)上就能运行,推理速度约2-3秒/图。这印证了我之前说的“成本革命”——多模态能力已经不再是实验室的奢侈品。

多模态的应用爆发点

有了上面的技术基础,我们可以想象几个即将成熟的场景:

  • 图表分析自动化:金融分析师上传一张复杂的K线图,AI直接给出技术面解读和趋势预测。

  • 教育辅导:学生拍一道几何题,AI不仅能识别文字,还能理解图形中的辅助线、角度标注,并给出分步解题思路。

  • 盲人辅助:实时描述周围环境——“你前方2米有一个台阶,右侧是自动门开关”。

仍未解决的挑战

多模态模型目前最头疼的问题依然是空间关系推理计数。例如问“图中有几个红色的圆形?”——模型可能把相邻的两个圆形数成一个。这也是为什么我在第一篇文章中强调“推理能力突围”的重要性。好消息是,结合思维链(Chain-of-Thought)的多模态推理模型已经出现(如Google的PaLI-X),未来一年内这些问题有望大幅改善。

写在最后

多模态不是给文本模型“加一双眼睛”那么简单。它要求模型理解物理世界的结构、材质、光影、透视——这些是纯文本永远无法触达的维度。当你运行上面那段代码,看着AI准确描述出一张陌生照片时,你会直观地感受到:机器正在从一个“符号处理器”,进化为一个“现实世界的观察者”。

下一个五年,真正的智能,一定诞生在多种感官的交汇处。

http://www.jsqmd.com/news/569586/

相关文章:

  • TranslucentTB高效配置与本地化实践指南
  • 通俗解读:GPU和NPU,在AI中分别扮演什么角色
  • 技术突破:Bypass Paywalls Clean内容访问解决方案深度解析
  • Cmsemicon中微 BAT32G133GC20SA TSSOP20 嵌入式闪存
  • SentrySearch:开启自然语言检索原生 MP4 视频新时代
  • Mac用户福音:Qwen3-TTS声音克隆在ComfyUI上的M芯片优化方案
  • 别再手动写接口了!用Flask+Ngrok快速给MySQL做个API,Dify直接调用
  • 浏览器中的SQLite管理革命:本地数据库查看工具的创新实践
  • Java微服务集成SmallThinker-3B-Preview实战:SpringBoot构建AI服务
  • 掩膜片蚀刻加工源头厂家怎么选?一文看懂工艺与实力
  • Ollama部署translategemma-12b-it:Gemma3架构下图文联合建模能力深度解析
  • python基于大数据的森林环境监测系统 Spark+Hadoop+Hive 大数据 深度学习 机器学习
  • SketchUp STL开源工具:让3D设计无缝转化为可打印模型的完整方案
  • WeKnora部署教程(CPU友好版):低配服务器也能跑的轻量问答镜像
  • Bili2text终极指南:如何一键将B站视频转文字,快速提取核心内容
  • Pixel Couplet Gen保姆级教程:Streamlit Theming定制像素UI主题色系统
  • Pixhawk飞行日志实战:从数据到诊断的精准排障指南
  • 如何用Rough.js创建手绘风格图形:数据可视化与UI设计的终极指南
  • 实战项目:基于快马平台用ai构建openclaw与千问模型的竞品监控分析系统
  • 2026 医学装备大会 | 聚焦前沿技术,阜外孙兴国主任解读超导心磁图临床价值
  • 3个步骤,让猫抓帮你轻松捕获网页视频资源
  • 从Blender到浏览器:手把手教你将自制GLTF模型完美嵌入Cesium地球(避坑指南)
  • Hi3519 DV500上跑YOLOv5太慢?手把手教你用ATC工具优化,推理速度提升200倍
  • ExoPlayer UI自定义实战:如何用PlayerView打造个性化视频播放界面(附完整代码)
  • 基于Python Spark+Hadoop+Hive 的拉勾网计算机类招聘数据分析与可视化
  • Git-RSCLIP新手避坑指南:这些提示词错误别再犯了
  • 效率革命:用AntiMicroX实现游戏手柄到键盘鼠标的映射自动化(3大场景+5倍效率提升)
  • ChangeMamba实战:如何用状态空间模型提升遥感变化检测精度(附代码)
  • 空洞骑士模组管理终极指南:如何用Scarab将安装时间缩短90%
  • 媒体捕获与视频下载:猫抓cat-catch零基础上手全指南