跳到主要内容

多模态大模型

问题

多模态大模型的架构是什么?如何让 LLM 理解图片、语音、视频?

答案

多模态大模型(Multimodal LLM) 是能处理多种输入形态(文本、图片、音频、视频)的 LLM。从纯文本 LLM 到多模态 LLM 是当前最重要的发展方向之一。

一、多模态架构

核心思路:把其他模态的信息编码成"Token",和文本 Token 一起送入 LLM

二、视觉-语言模型

Vision Encoder

编码器特点使用模型
ViT (Vision Transformer)图片切成 Patch,做 Self-Attention早期模型
CLIP ViT图文对比预训练LLaVA
SigLIP改进的对比学习Gemini、PaliGemma
InternViT大规模视觉编码器InternVL

对齐方式

方法说明代表
线性投影最简单,一层线性映射LLaVA 1.0
MLP 投影两层 MLP,更强的映射能力LLaVA 1.5
Cross-Attention用 Attention 融合视觉和文本Flamingo
Q-FormerQuerying Transformer,固定数量的视觉 TokenBLIP-2
动态分辨率不同大小的图片产生不同数量的 TokenLLaVA-Next、Qwen-VL

典型模型

模型Vision Encoder对齐方式LLM Backbone
LLaVA 1.5CLIP ViT-LMLP 投影Vicuna-13B
GPT-4V/4o未公开未公开GPT-4
GeminiSigLIP + 原生多模态原生融合Gemini
Claude 4未公开未公开Claude
Qwen-VL 2ViTMLPQwen 2

三、语音模态

模型能力特点
GPT-4o (Voice)语音输入+输出端到端语音理解
Whisper语音→文本OpenAI 开源 ASR
Gemini Audio语音理解+生成原生语音处理

语音处理通常有两种路线:

  1. 级联:ASR 将语音转文本 → LLM 处理文本 → TTS 生成语音
  2. 端到端:LLM 直接处理音频 Token(GPT-4o、Gemini)

四、视频理解

视频 = 图片序列 + 音频。挑战在于Token 数量爆炸——1 秒视频 = 30 帧 × 每帧数百 Token。

解决方案:

  • 均匀采样:每秒取 1-2 帧,大幅减少 Token
  • 关键帧检测:只取变化大的帧
  • 视频编码器:3D 卷积提取时空特征

五、生成模态

方向代表方法
文生图DALL-E 3、MidjourneyLLM 生成 Prompt → 扩散模型生成图
图像编辑GPT-4o 原生图像生成原生多模态生成
文生视频Sora、Runway Gen-3时空扩散模型
理解 vs 生成

当前多模态 LLM 主要擅长理解(看图回答问题),生成多模态内容(文生图/视频)通常需要专门的扩散模型配合。GPT-4o 是第一个实现原生图像生成的 LLM。


常见面试问题

Q1: 多模态 LLM 是如何"看到"图片的?

答案

  1. 将图片输入视觉编码器(如 ViT),得到一组视觉特征向量
  2. 通过投影层(MLP)将视觉特征映射到 LLM 的 Token 空间
  3. 这些视觉 "Token" 和文本 Token 拼接在一起送入 LLM
  4. LLM 通过 Attention 机制同时处理文本和视觉信息

Q2: 为什么多模态模型在推理时更慢?

答案: 图片被编码为大量视觉 Token(一张图可能产生 576~2880 个 Token),这些 Token 都参与注意力计算。相当于每张图增加了对应 Token 数量的文本输入。高分辨率图片或多张图片会显著增加 Prefill 时间和 KV Cache 占用。

Q3: CLIP 在多模态模型中起什么作用?

答案: CLIP 是一个图文对比学习模型——在 4 亿图文对上训练,学会了将图片和文本映射到同一个语义空间。在多模态 LLM 中,CLIP 的视觉编码器(ViT)作为"眼睛"提取图片的语义特征,这些特征已经和文本语义对齐——大幅降低了 LLM 理解图片的难度。


相关链接