跳到主要内容

计算机视觉知识体系概览

为什么要学计算机视觉

计算机视觉(CV)是 AI 三大核心领域之一(NLP、CV、Speech)。随着多模态大模型的出现,CV 与 NLP 深度融合,理解 CV 基础对于构建多模态 AI 应用至关重要。

知识体系

学习路径

阶段主题文档
入门图像分类图像分类
进阶目标检测目标检测
进阶图像分割图像分割
进阶图像生成图像生成
高级多模态模型多模态视觉模型
高级OCROCR 文字识别
面试重点

AI 面试中 CV 常考:

  1. CNN 经典架构演进(ResNet、ViT)
  2. 目标检测算法(YOLO 系列)
  3. 图像生成(Diffusion 原理)
  4. 多模态模型(CLIP、GPT-4V/4o)