多模态大模型
问题
多模态大模型的架构是什么?如何让 LLM 理解图片、语音、视频?
答案
多模态大模型(Multimodal LLM) 是能处理多种输入形态(文本、图片、音频、视频)的 LLM。从纯文本 LLM 到多模态 LLM 是当前最重要的发展方向之一。
一、多模态架构
核心思路:把其他模态的信息编码成"Token",和文本 Token 一起送入 LLM。
二、视觉-语言模型
Vision Encoder
| 编码器 | 特点 | 使用模型 |
|---|---|---|
| ViT (Vision Transformer) | 图片切成 Patch,做 Self-Attention | 早期模型 |
| CLIP ViT | 图文对比预训练 | LLaVA |
| SigLIP | 改进的对比学习 | Gemini、PaliGemma |
| InternViT | 大规模视觉编码器 | InternVL |
对齐方式
| 方法 | 说明 | 代表 |
|---|---|---|
| 线性投影 | 最简单,一层线性映射 | LLaVA 1.0 |
| MLP 投影 | 两层 MLP,更强的映射能力 | LLaVA 1.5 |
| Cross-Attention | 用 Attention 融合视觉和文本 | Flamingo |
| Q-Former | Querying Transformer,固定数量的视觉 Token | BLIP-2 |
| 动态分辨率 | 不同大小的图片产生不同数量的 Token | LLaVA-Next、Qwen-VL |
典型模型
| 模型 | Vision Encoder | 对齐方式 | LLM Backbone |
|---|---|---|---|
| LLaVA 1.5 | CLIP ViT-L | MLP 投影 | Vicuna-13B |
| GPT-4V/4o | 未公开 | 未公开 | GPT-4 |
| Gemini | SigLIP + 原生多模态 | 原生融合 | Gemini |
| Claude 4 | 未公开 | 未公开 | Claude |
| Qwen-VL 2 | ViT | MLP | Qwen 2 |
三、语音模态
| 模型 | 能力 | 特点 |
|---|---|---|
| GPT-4o (Voice) | 语音输入+输出 | 端到端语音理解 |
| Whisper | 语音→文本 | OpenAI 开源 ASR |
| Gemini Audio | 语音理解+生成 | 原生语音处理 |
语音处理通常有两种路线:
- 级联:ASR 将语音转文本 → LLM 处理文本 → TTS 生成语音
- 端到端:LLM 直接处理音频 Token(GPT-4o、Gemini)
四、视频理解
视频 = 图片序列 + 音频。挑战在于Token 数量爆炸——1 秒视频 = 30 帧 × 每帧数百 Token。
解决方案:
- 均匀采样:每秒取 1-2 帧,大幅减少 Token
- 关键帧检测:只取变化大的帧
- 视频编码器:3D 卷积提取时空特征
五、生成模态
| 方向 | 代表 | 方法 |
|---|---|---|
| 文生图 | DALL-E 3、Midjourney | LLM 生成 Prompt → 扩散模型生成图 |
| 图像编辑 | GPT-4o 原生图像生成 | 原生多模态生成 |
| 文生视频 | Sora、Runway Gen-3 | 时空扩散模型 |
理解 vs 生成
当前多模态 LLM 主要擅长理解(看图回答问题),生成多模态内容(文生图/视频)通常需要专门的扩散模型配合。GPT-4o 是第一个实现原生图像生成的 LLM。
常见面试问题
Q1: 多模态 LLM 是如何"看到"图片的?
答案:
- 将图片输入视觉编码器(如 ViT),得到一组视觉特征向量
- 通过投影层(MLP)将视觉特征映射到 LLM 的 Token 空间
- 这些视觉 "Token" 和文本 Token 拼接在一起送入 LLM
- LLM 通过 Attention 机制同时处理文本和视觉信息
Q2: 为什么多模态模型在推理时更慢?
答案: 图片被编码为大量视觉 Token(一张图可能产生 576~2880 个 Token),这些 Token 都参与注意力计算。相当于每张图增加了对应 Token 数量的文本输入。高分辨率图片或多张图片会显著增加 Prefill 时间和 KV Cache 占用。
Q3: CLIP 在多模态模型中起什么作用?
答案: CLIP 是一个图文对比学习模型——在 4 亿图文对上训练,学会了将图片和文本映射到同一个语义空间。在多模态 LLM 中,CLIP 的视觉编码器(ViT)作为"眼睛"提取图片的语义特征,这些特征已经和文本语义对齐——大幅降低了 LLM 理解图片的难度。