多模态视觉模型

问题

CLIP 和 GPT-4V 等多模态视觉模型的原理是什么？

答案

一、多模态视觉模型演进

二、CLIP 模型

CLIP（Contrastive Language-Image Pre-training） 是最重要的视觉-语言基础模型：

在 4 亿图文对上训练
学会了图像和文本的通用对齐表示
零样本分类：用文本描述替代类别标签

三、视觉语言模型（VLM）

模型	特点
GPT-4o	原生多模态、商用最强
Claude 3.5	文档/图表理解优秀
Gemini	Google 多模态、长上下文
LLaVA	开源 VLM
Qwen-VL	阿里开源，中文优秀

VLM 架构

图像 → Vision Encoder → 视觉特征
                           ↓
                        投影层 → 视觉 Token
                           ↓
文本 → Tokenizer → 文本 Token → [视觉 Token + 文本 Token] → LLM → 输出

四、应用场景

场景	应用
图像理解	图片描述、视觉问答
文档理解	发票/合同/论文解析
多模态搜索	用文字搜图片、用图片搜图片
辅助诊断	医学影像分析
视觉 Agent	基于截图操控 UI

常见面试问题

Q1: CLIP 的零样本分类是怎么工作的？

答案：

用 CLIP Image Encoder 获取图像特征
将每个类别名称用 Text Encoder 编码为文本特征（如 "a photo of a cat"）
计算图像特征与所有类别文本特征的余弦相似度
选择相似度最高的类别作为预测结果

不需要任何训练数据，新增类别只需添加文本描述

Q2: VLM 相比纯文本 LLM 有什么额外挑战？

答案：

图像分辨率：高分辨率图像产生大量视觉 Token，消耗上下文窗口
幻觉：VLM 的视觉幻觉比文本幻觉更难检测
定位精度：精确的空间位置理解仍是挑战
成本：图片 Token 数量多，API 调用成本高

问题​

答案​

一、多模态视觉模型演进​

二、CLIP 模型​

三、视觉语言模型（VLM）​

VLM 架构​

四、应用场景​

常见面试问题​

Q1: CLIP 的零样本分类是怎么工作的？​

Q2: VLM 相比纯文本 LLM 有什么额外挑战？​

相关链接​

问题

答案

一、多模态视觉模型演进

二、CLIP 模型

三、视觉语言模型（VLM）

VLM 架构

四、应用场景

常见面试问题

Q1: CLIP 的零样本分类是怎么工作的？

Q2: VLM 相比纯文本 LLM 有什么额外挑战？

相关链接