自2012年深度学习取得突破以来,计算机视觉(Computer Vision, CV)领域经历了长足发展。本文系统梳理下深度学习在计算机视觉中的发展脉络,从奠定基础的卷积神经网络(CNN),到引发变革的视觉Transformer,到当前发展现状,以及对未来发展的展望。
一、发展历程
计算机视觉深度学习的演进经历了若干关键技术引发的阶段性飞跃。
1.1 奠基时代:卷积神经网络的崛起 (c. 2012-2015)
此前的CV领域依赖于SIFT、HOG等手工设计特征,性能存在瓶颈。深度学习的出现彻底改变了这一局面。
- AlexNet (2012):标志性转折点。它将CNN、ReLU、Dropout及GPU并行计算成功整合,在ImageNet竞赛中取得压倒性胜利。
- VGGNet (2014):通过堆叠3x3的小卷积核,验证了网络深度对性能的关键作用。
- ResNet (2015):革命性地提出“残差连接”,解决了深度网络的梯度消失与退化问题,使训练百层以上的网络成为现实,至今仍是极其重要的基准架构。
1.2 体系化时代:复杂任务的攻克与CNN的现代化 (c. 2014-2020)
在分类任务取得成功后,研究重心转向更复杂的检测与分割,同时CNN架构自身也在不断进化。
- 目标检测:形成了两大技术路线——以Faster R-CNN为代表的、精度优先的两阶段方法,和以YOLO、SSD为代表的、速度优先的一阶段方法。
- 实例分割:Mask R-CNN (2017) 优雅地将目标检测与实例分割统一在同一框架下。
- 现代CNN:ConvNeXt (2022) 系列通过借鉴Swin Transformer的设计原则和现代化的训练策略,大幅提升了纯CNN架构的性能,证明了在密集预测任务上,精心设计的CNN依然具备强大的竞争力。
1.3 变革时代:Transformer的跨界冲击 (c. 2020-2022)
Transformer架构凭借其自注意力机制对全局依赖的强大建模能力,为CV领域带来了新的范式。
- Vision Transformer (ViT, 2020):证明了纯Transformer架构在大规模数据预训练下,性能可超越顶尖CNN。
- Swin Transformer (2021):通过引入层级化设计和滑动窗口局部注意力,提升了ViT的效率和对多尺度特征的建模能力,使其成为各类视觉任务的通用骨干网络。
- DETR (2020):将目标检测重塑为端到端的“集合预测”问题,摆脱了NMS等手工后处理组件,开创了检测任务的新范式。
1.4 融合时代:基础模型与多模态的兴起 (c. 2021-至今)
“预训练-微调”范式演进为由大规模、多功能的“基础模型”驱动的时代。
- 自监督学习范式分化:成为获取通用视觉表征的主流。主要形成两条路线:以MAE (Masked Autoencoders)为代表的生成式掩码重建,和以DINOv2为代表的、基于知识蒸馏和判别式学习的大规模无监督范式。
- 多模态对齐与开放词表:CLIP (2021)通过亿级图文对的对比学习,打通了视觉与语言的语义空间。这一能力迅速被下游任务所用,催生了如Detic、OWL-ViT等开放词表(Open-Vocabulary)检测与分割模型,使模型能够检测和分割训练集中未见过的任意物体。
- 交互范式的革新——提示分割:Segment Anything Model (SAM, 2023)是一个重要的行业拐点,它通过“提示工程”(点、框、文本)实现了强大的零样本分割能力。其架构由三部分组成:一个强大的ViT-H图像编码器负责将图像转化为高质量的特征嵌入;一个轻量级的提示编码器将用户输入转化为向量;最后,一个高效的Transformer掩码解码器结合两者,实时预测出分割掩码。后续的SAM 2 (2024)进一步将能力扩展至视频,其核心架构创新在于引入了流式记忆模块,使得模型能够在处理视频帧时维持和更新上下文状态,从而实现高效、连贯的实时交互式分割,并配套了目前最大的视频分割数据集,极大地推动了交互式标注和视频理解。
- 三维表征的跃迁:为了让模型从理解2D图像走向理解3D世界,NeRF (2020)开创了神经辐射场,实现了高质量的新视角合成。NeRF的核心架构是一个多层感知机 (MLP),该网络学习一个将三维空间点坐标和二维观测方向映射到该点颜色和体密度的连续函数,从而构成一种隐式的神经场景表示。而3D高斯溅射 (3DGS, 2023)则采用了不同的范式,其核心并非深度神经网络,而是一种显式的、基于三维高斯基元的场景表示。它通过直接优化数百万个高斯函数的位置、形状、颜色和透明度等参数来表征场景,并利用高效的可微光栅化管线实现实时渲染,极大地推动了3D重建的工业应用。
二、当前现状
2.1 当前主流架构
- CNNs (ResNet, ConvNeXt):凭借成熟的生态和高效的推理速度,在工业界,特别是实时性要求高的场景中,仍是主力。
- ViTs (Swin, ViT variants):是学术界进行大规模预训练、冲击SOTA性能的首选。
- 混合架构 (Hybrid Architectures):是当前高精度密集预测任务的主流范式。需要注意的是,这一模式因任务而异:SOTA分类模型(如EVA-02)常使用纯ViT架构,而目标检测、图像分割等密集预测任务则普遍采用CNN/ViT骨干网络 + Transformer颈部/解码器头的混合结构。这种设计充分利用了CNN/ViT高效提取局部和多尺度特征的能力,以及Transformer强大的全局上下文建模和集合预测能力。
2.2 关键任务性能指标
下表总结了在几个核心视觉任务上,主流模型的典型性能。
| 任务 | 模型范例 (类型) | 核心架构 | 性能指标¹ | 参数规模 (约) | 速度/场景考量 |
|---|---|---|---|---|---|
| 图像分类 | EVA-02-L (SOTA) | ViT | 90.0% Top-1 (ImageNet-1K)² | 304 M | 高延迟,适合离线分析 |
| 目标检测 (高精度) | Co-DETR (2023-2024强结果) | 混合架构 (ViT-L + Transformer Head) | 66.0 AP (COCO test-dev)³ | >300 M | 离线高精度场景 |
| 目标检测 (实时) | YOLOv10-X (SOTA) | CNN | 54.4 AP (COCO val) | 97 M | 极低延迟 (ms级),工业部署首选 |
| RT-DETR-R50 (端到端) | 混合架构 (CNN + Transformer Head) | 53.1 AP (COCO val), 108 FPS (T4)⁴ | 41 M | 端到端、免NMS,提供优异的速度-精度平衡 | |
| 通用分割 | Mask2Former (SOTA) | 混合架构 (Swin-L + Transformer Decoder) | 57.8 PQ (COCO Panoptic)⁵ | >200 M | 高精度,离线分割任务 |
| 提示/视频分割 | SAM 2 (范式革新) | Transformer + 流式记忆 | 视频与图像统一,强大的零样本泛化能力 | (ViT-H >600M) | 实时交互式应用,数据标注引擎 |
脚注:
¹ 所有指标均来自原论文或官方报告,复现结果可能存在差异。
² EVA-02-L: 在ImageNet-21K上预训练,然后在ImageNet-1K上微调,输入分辨率448x448。
³ Co-DETR: 在Objects365等大规模外部数据上预训练。
⁴ RT-DETR: TensorRT FP16, T4 GPU, 批量大小为1。
⁵ Mask2Former: 多尺度测试结果。
三、发展展望
计算机视觉的未来发展并非单一路径,而是通用和专用的并行存在:一条是面向特定任务、追求极致性能的“专用模型”深化路径;另一条是面向通用认知、追求类人智能的“通用模型”演进路径。
3.1 路径一:专用模型的深化
- 目标:在自动驾驶、医疗影像、工业制造、科学计算等垂直领域内,追求超越人类的精度、速度、稳定性和效率,以实现高度可靠的自动化。
- 技术趋势:
- 架构:
- 高效混合架构的持续迭代:以RT-DETR系列为代表的模型,通过精心设计的混合架构(如以ResNet为主干,结合高效的Transformer解码器),在保持端到端检测范式优势的同时,实现了卓越的速度-精度平衡,成为实时高精度检测的新基准。
- 轻量化CNN的极限探索:以YOLOv10和YOLO-World为代表,前者通过免NMS训练和轻量化架构设计,进一步压榨CNN在速度和部署便利性上的潜力;后者则创新性地将开放词表能力融入高效检测器中,使其成为一个强大的、可由文本指令驱动的专用感知工具。
- 状态空间模型(SSM)的应用探索:以VMamba和VideoMamba为代表的架构,正在被探索用于替代或补充Transformer。其核心优势在于处理长序列(如高分辨率图像或长视频)时的线性复杂度 O(N),相较于标准自注意力的二次方复杂度 O(N²),在内存和计算效率上潜力巨大,尤其适合医学影像分析和视频流处理等任务。
- 极致效率:
- 模型压缩与硬件加速:量化(如4-bit/8-bit)、剪枝、蒸馏等技术将成为模型部署的标配。结合专门的推理引擎(如NVIDIA的TensorRT、Apple的Core ML),进行软硬件协同设计,以在资源受限的边缘设备(如车载芯片、移动电话)上实现最低延迟和功耗。
- 核心应用:
- 自动驾驶:实现全天候、全场景的实时环境感知。
- 医疗影像:提供高精度的病灶检测、分割与疾病分级诊断。
- 工业制造:在生产线上进行微米级的瑕疵检测与质量控制。
- 机器人学:为机器人的精准抓取和导航提供实时、鲁棒的视觉输入。
3.2 路径二:通用模型的演进
- 目标:构建具备类人视觉认知能力的系统,能够理解、推理、交互并生成多模态信息,最终作为通往通用人工智能(AGI)的关键路径。更多可参考:多模态模型架构演进过程
- 技术趋势:
- 原生多模态架构:
- 端到端统一模型:以GPT-4o和Gemini 2.5为代表,其架构摒弃了早期VLM的模块化拼接思路。它们不再是“视觉编码器+适配器+语言模型”的组合,而是在一个更深层次、更统一的神经网络内部处理原始的视觉、音频和文本Token。这种设计打破了信息瓶颈,实现了革命性的低延迟(可达数百毫秒),使得流畅、自然的实时多模态对话成为可能。
- 能力跃迁:
- 从“识别”到“推理与规划”:模型的核心能力从回答“这是什么?”(识别)跃迁至回答“这为什么会发生?”(因果推理)和“我应该怎么做?”(规划)。
- 工具使用(Tool Use):这是能力跃迁的关键体现。现代VLM(如具备高级数据分析功能的GPT-4o)可以作为中央推理引擎,根据用户的视觉输入和指令,自主决定调用外部API或工具(如网络搜索、代码执行器、计算器)。例如,用户上传一张图表照片,VLM不仅能“读懂”图表,还能调用代码解释器进行数据分析和趋势预测,这标志着模型从被动的信息处理器转变为主动的问题解决者。
- 世界模型(World Models):
- 目标与定义:这是通用视觉认知的下一个前沿,其目标是让AI不仅能感知世界,更能构建一个关于世界如何运作的内部动态模拟器。它旨在学习并内化物理规律、因果关系和智能体行为的常识。
- 代表模型与架构:以OpenAI的Sora、Google的Veo和Genie为代表。其核心架构是扩散-Transformer(DiT),通过在海量视频数据上进行训练,模型学习在时空潜在空间(Spacetime Latent Space)中对视觉“补丁”(Patches)进行去噪和预测。Sora展示了生成长达一分钟、具有高度连贯性和物理真实感的视频的能力。Genie则更进一步,能够从视频中学习一个可交互的潜在动作空间,生成一个用户可以通过实时输入来“游玩”的2D世界,标志着向可交互世界模型迈出了重要一步。
结语
计算机视觉深度学习的发展,经历了从解决孤立感知问题,演进到构建通用视觉表征,再到当前迈向通用人工智能的阶段。具体项目落地时,应根据项目的延迟、资源等选择合适、先进的模型方案。