当前位置：首页 > news >正文

AI进阶 | 多模态视觉：从 CLIP 到 LLaVA —— 它是如何看懂这个世界的？

news 2026/3/27 10:01:47

AI进阶 | 多模态视觉：从 CLIP 到 LLaVA —— 它是如何看懂这个世界的？

前言：什么是多模态？

“模态”（Modality）是指信息的来源形式。文字是一种模态，图像、音频、视频也是模态。多模态 AI的核心目标就是：建立不同模态之间的统一表征空间。说人话就是：让 AI 觉得“猫”这个汉字、“Cat” 这个单词，以及一张毛茸茸的小猫照片，在它的脑子里其实是同一个东西（同一个坐标）。

一、破壁者：CLIP（大模型的“千里眼”）

由 OpenAI 发布的CLIP (Contrastive Language-Image Pre-training)是多模态领域的里程碑。它解决了最基本的问题：如何让文字和图片产生联系？

1. 核心思想：对比学习

CLIP 并没有像传统 AI 那样死记硬背“这张图是猫”，它玩的是连连看。它在互联网上抓取了 4 亿对“图片+文字描述”。训练时，它把图片交给一个“视觉编码器”，把文字交给一个“文本编码器”。

训练目标：如果是配对的图文，就把它们的向量坐标拉近；如果不配对，就推远。

2. CLIP 能干什么？

以文搜图：你在几万张照片里搜“夕阳下的海边咖啡馆”，它能精准匹配。
零样本分类（Zero-shot）：它不需要针对特定任务微调，就能识别出它从未见过的物体类别。

二、进化：从“看图匹配”到“看图聊天” (LLaVA)

虽然 CLIP 能识别图片，但它不能和你讨论图片。比如你发一张冰箱的照片问：“我能用里面的食材做顿什么饭？” CLIP 只能告诉你：“这里有鸡蛋、西红柿”。

为了让大模型具备视觉理解能力，LLaVA (Large Language-and-Vision Assistant)等模型应运而生。

1. LLaVA 的构造：给 LLM 装上义眼

LLaVA 的结构非常暴力且优雅：

视觉编码器（CLIP）：负责把图片“翻译”成特征向量。
投影层（Projection Layer）：这是一个“翻译官”，负责把视觉向量转换成 LLM 能听懂的“视觉单词”。
大语言模型（Vicuna/Llama）：负责理解这些视觉单词并结合对话生成回答。

2. 它是如何训练的？

它不是在学习看图，而是在学习**“看图描述的逻辑”**。通过大量（图片, 描述, 问答）的三元组数据，LLM 逐渐学会了将视觉信号融入到自己的思维链条中。

三、实战：让 AI 识别图片内容

在 Python 工具链中，我们可以直接调用 Hugging Face 上的多模态模型。以下是一个使用Pipeline快速实现“图像描述”的例子：

fromtransformersimportpipeline# 1. 加载一个多模态模型 (如 Salesforce 的 BLIP)captioner=pipeline("image-to-text",model="Salesforce/blip-image-captioning-base")# 2. 传入图片 URL 或本地路径img_url="https://example.com/beach_sunset.jpg"result=captioner(img_url)# 3. 输出 AI 看到的画面print(f"AI 描述:{result[0]['generated_text']}")# 示例输出: a sunset over the ocean with waves crashing on the beach