跳到主要内容

计算机视觉知识体系概览

为什么要学计算机视觉

计算机视觉（CV）是 AI 三大核心领域之一（NLP、CV、Speech）。随着多模态大模型的出现，CV 与 NLP 深度融合，理解 CV 基础对于构建多模态 AI 应用至关重要。

知识体系

学习路径

阶段	主题	文档
入门	图像分类	图像分类
进阶	目标检测	目标检测
进阶	图像分割	图像分割
进阶	图像生成	图像生成
高级	多模态模型	多模态视觉模型
高级	OCR	OCR 文字识别

面试重点

AI 面试中 CV 常考：

CNN 经典架构演进（ResNet、ViT）
目标检测算法（YOLO 系列）
图像生成（Diffusion 原理）
多模态模型（CLIP、GPT-4V/4o）

为什么要学计算机视觉
知识体系
学习路径