多模态大模型

问题

多模态大模型的架构是什么？如何让 LLM 理解图片、语音、视频？

答案

多模态大模型（Multimodal LLM） 是能处理多种输入形态（文本、图片、音频、视频）的 LLM。从纯文本 LLM 到多模态 LLM 是当前最重要的发展方向之一。

一、多模态架构

核心思路：把其他模态的信息编码成"Token"，和文本 Token 一起送入 LLM。

二、视觉-语言模型

Vision Encoder

编码器	特点	使用模型
ViT (Vision Transformer)	图片切成 Patch，做 Self-Attention	早期模型
CLIP ViT	图文对比预训练	LLaVA
SigLIP	改进的对比学习	Gemini、PaliGemma
InternViT	大规模视觉编码器	InternVL

对齐方式

方法	说明	代表
线性投影	最简单，一层线性映射	LLaVA 1.0
MLP 投影	两层 MLP，更强的映射能力	LLaVA 1.5
Cross-Attention	用 Attention 融合视觉和文本	Flamingo
Q-Former	Querying Transformer，固定数量的视觉 Token	BLIP-2
动态分辨率	不同大小的图片产生不同数量的 Token	LLaVA-Next、Qwen-VL

典型模型

模型	Vision Encoder	对齐方式	LLM Backbone
LLaVA 1.5	CLIP ViT-L	MLP 投影	Vicuna-13B
GPT-4V/4o	未公开	未公开	GPT-4
Gemini	SigLIP + 原生多模态	原生融合	Gemini
Claude 4	未公开	未公开	Claude
Qwen-VL 2	ViT	MLP	Qwen 2

三、语音模态

模型	能力	特点
GPT-4o (Voice)	语音输入+输出	端到端语音理解
Whisper	语音→文本	OpenAI 开源 ASR
Gemini Audio	语音理解+生成	原生语音处理

语音处理通常有两种路线：

级联：ASR 将语音转文本 → LLM 处理文本 → TTS 生成语音
端到端：LLM 直接处理音频 Token（GPT-4o、Gemini）

四、视频理解

视频 = 图片序列 + 音频。挑战在于Token 数量爆炸——1 秒视频 = 30 帧 × 每帧数百 Token。

解决方案：

均匀采样：每秒取 1-2 帧，大幅减少 Token
关键帧检测：只取变化大的帧
视频编码器：3D 卷积提取时空特征

五、生成模态

方向	代表	方法
文生图	DALL-E 3、Midjourney	LLM 生成 Prompt → 扩散模型生成图
图像编辑	GPT-4o 原生图像生成	原生多模态生成
文生视频	Sora、Runway Gen-3	时空扩散模型

理解 vs 生成

当前多模态 LLM 主要擅长理解（看图回答问题），生成多模态内容（文生图/视频）通常需要专门的扩散模型配合。GPT-4o 是第一个实现原生图像生成的 LLM。

常见面试问题

Q1: 多模态 LLM 是如何"看到"图片的？

答案：

将图片输入视觉编码器（如 ViT），得到一组视觉特征向量
通过投影层（MLP）将视觉特征映射到 LLM 的 Token 空间
这些视觉 "Token" 和文本 Token 拼接在一起送入 LLM
LLM 通过 Attention 机制同时处理文本和视觉信息

Q2: 为什么多模态模型在推理时更慢？

答案：图片被编码为大量视觉 Token（一张图可能产生 576~2880 个 Token），这些 Token 都参与注意力计算。相当于每张图增加了对应 Token 数量的文本输入。高分辨率图片或多张图片会显著增加 Prefill 时间和 KV Cache 占用。

Q3: CLIP 在多模态模型中起什么作用？

答案： CLIP 是一个图文对比学习模型——在 4 亿图文对上训练，学会了将图片和文本映射到同一个语义空间。在多模态 LLM 中，CLIP 的视觉编码器（ViT）作为"眼睛"提取图片的语义特征，这些特征已经和文本语义对齐——大幅降低了 LLM 理解图片的难度。

问题​

答案​

一、多模态架构​

二、视觉-语言模型​

Vision Encoder​

对齐方式​

典型模型​

三、语音模态​

四、视频理解​

五、生成模态​

常见面试问题​

Q1: 多模态 LLM 是如何"看到"图片的？​

Q2: 为什么多模态模型在推理时更慢？​

Q3: CLIP 在多模态模型中起什么作用？​

相关链接​

问题

答案