计算机视觉计算机视觉知识体系概览本页总览计算机视觉知识体系概览 为什么要学计算机视觉 计算机视觉(CV)是 AI 三大核心领域之一(NLP、CV、Speech)。随着多模态大模型的出现,CV 与 NLP 深度融合,理解 CV 基础对于构建多模态 AI 应用至关重要。 知识体系 学习路径 阶段主题文档入门图像分类图像分类进阶目标检测目标检测进阶图像分割图像分割进阶图像生成图像生成高级多模态模型多模态视觉模型高级OCROCR 文字识别 面试重点AI 面试中 CV 常考: CNN 经典架构演进(ResNet、ViT) 目标检测算法(YOLO 系列) 图像生成(Diffusion 原理) 多模态模型(CLIP、GPT-4V/4o)