多模态视觉模型
问题
CLIP 和 GPT-4V 等多模态视觉模型的原理是什么?
答案
一、多模态视觉模型演进
二、CLIP 模型
CLIP(Contrastive Language-Image Pre-training) 是最重要的视觉-语言基础模型:
- 在 4 亿图文对上训练
- 学会了图像和文本的通用对齐表示
- 零样本分类:用文本描述替代类别标签
三、视觉语言模型(VLM)
| 模型 | 特点 |
|---|---|
| GPT-4o | 原生多模态、商用最强 |
| Claude 3.5 | 文档/图表理解优秀 |
| Gemini | Google 多模态、长上下文 |
| LLaVA | 开源 VLM |
| Qwen-VL | 阿里开源,中文优秀 |
VLM 架构
图像 → Vision Encoder → 视觉特征
↓
投影层 → 视觉 Token
↓
文本 → Tokenizer → 文本 Token → [视觉 Token + 文本 Token] → LLM → 输出
四、应用场景
| 场景 | 应用 |
|---|---|
| 图像理解 | 图片描述、视觉问答 |
| 文档理解 | 发票/合同/论文解析 |
| 多模态搜索 | 用文字搜图片、用图片搜图片 |
| 辅助诊断 | 医学影像分析 |
| 视觉 Agent | 基于截图操控 UI |
常见面试问题
Q1: CLIP 的零样本分类是怎么工作的?
答案:
- 用 CLIP Image Encoder 获取图像特征
- 将每个类别名称用 Text Encoder 编码为文本特征(如 "a photo of a cat")
- 计算图像特征与所有类别文本特征的余弦相似度
- 选择相似度最高的类别作为预测结果
- 不需要任何训练数据,新增类别只需添加文本描述
Q2: VLM 相比纯文本 LLM 有什么额外挑战?
答案:
- 图像分辨率:高分辨率图像产生大量视觉 Token,消耗上下文窗口
- 幻觉:VLM 的视觉幻觉比文本幻觉更难检测
- 定位精度:精确的空间位置理解仍是挑战
- 成本:图片 Token 数量多,API 调用成本高