计算机视觉（CV）与视觉语言（VL）模型的经典结构与算子

深度学习的浪潮推动了计算机视觉（CV）和视觉语言（VL）领域的飞速发展。这一进程并非仅由新模型驱动，更深层次上，是由一系列经典且强大的“结构”或“算子”（Operators）的创新所引领。这些构件如同乐高积木，通过巧妙组合，构筑起日益复杂和强大的模型。

在 CV 领域，发展脉络清晰地展现了从局部到全局、从静态到动态的特征提取范式变迁。早期以卷积为核心，通过1x1卷积进行通道融合、深度可分离卷积实现效率革命、空洞卷积扩大感受野。随后，为了捕捉长距离依赖关系，自注意力机制被引入，并演化出如 Swin Transformer 的窗口化注意力等高效变体。而残差连接和特征金字塔（FPN）则分别解决了深度网络的优化难题和多尺度目标的检测问题，至今仍是现代模型的基础。

在 VL 领域，核心挑战在于如何有效“对齐”和“融合”视觉与语言这两种异构模态。早期的双编码器范式（如CLIP）通过对比学习将图像和文本映射到共享的嵌入空间，奠定了跨模态检索和零样本学习的基础。进而，为了实现更深层次的交互，交叉注意力（Cross-Attention）机制成为主流，它允许语言模型直接“读取”视觉特征。为了解决视觉信息冗余带来的计算难题，Q-Former 和 Perceiver Resampler 等查询式摘要模块应运而生，它们能高效地从海量视觉Token中提取与文本最相关的精华信息。

进入2024-2025年，随着对长序列建模需求的增长，以 Mamba 为代表的状态空间模型（SSM）开始在CV和VL领域崭露头角，它们以线性时间复杂度的优势，为处理高分辨率图像和长视频等任务提供了新的高效解决方案。

当前，工业界应用呈现出经典与前沿并存的局面。高效的卷积结构依然是移动端和边缘设备的首选；残差连接与FPN是检测、分割等任务的标配。而在需要强大全局理解和生成能力的场景，基于Transformer和交叉注意力的结构已成为主流。视觉语言模型正从理解走向与世界交互，成为多模态智能体的核心。

一、计算机视觉（CV）的经典结构与算子

CV模型的核心在于如何有效地提取、整合和利用图像中的信息。以下是推动其发展的关键结构。

1. 感受野与卷积家族：构建视觉层次的基础

卷积神经网络（CNN）通过堆叠卷积层来构建从低级边缘到高级语义的特征层次。卷积算子的演进主要围绕着如何更高效、更灵活地捕捉空间信息。

1x1 卷积 (Pointwise Convolution)：在《Network-in-Network》首次提出，其核心作用并非空间滤波，而是：
通道降维与升维：以极低的计算成本改变特征图的通道数，是GoogLeNet中Inception模块和ResNet中“瓶颈”结构的关键。
通道信息融合：在不改变空间维度的情况下，实现跨通道的特征交互与重组。
深度可分离卷积 (Depthwise Separable Convolution)：MobileNet和Xception的基石，将标准卷积分解为两步，极大降低了计算量和参数量：
逐通道卷积 (Depthwise Convolution)：每个输入通道由一个独立的卷积核进行空间滤波，不进行通道间信息交换。
逐点卷积 (Pointwise Convolution)：即1x1卷积，负责将前一步的输出进行通道融合。
空洞/膨胀卷积 (Dilated/Atrous Convolution)：为语义分割等密集预测任务而生，它在不增加计算量或降低空间分辨率的前提下，感受野随膨胀率线性增大。通过在卷积核元素之间插入空洞（零），使得卷积核可以覆盖更大的区域。DeepLab系列模型中的ASPP (Atrous Spatial Pyramid Pooling)模块通过并联不同膨胀率的空洞卷积，有效捕捉多尺度上下文信息。
可变形卷积 (Deformable Convolution, DCN)：针对目标的几何形变，DCN为卷积核的每个采样点增加了可学习的二维偏移量。这使得卷积的感受野能够根据图像内容动态调整，更好地适应物体的不同形状、姿态和尺度，显著提升了目标检测和分割的精度。

2. 全局上下文与注意力：从局部到全局的跨越

传统CNN的感受野有限，难以直接建模长距离依赖。注意力机制的引入打破了这一局限。

Non-Local 模块：以‘非局部运算’形式系统性地把自注意力思想引入视觉。它计算图像中任意两个位置之间的特征相似度，并将所有位置的特征进行加权求和，从而直接捕捉全局依赖关系。这是从CNN局部操作到Transformer全局建模的关键过渡。
窗口化自注意力 (Windowed Self-Attention)：标准ViT的全局自注意力计算量与图像尺寸的平方成正比，处理高分辨率图像时难以承受。Swin Transformer 提出的移位窗口（Shifted Windows）机制巧妙地解决了这个问题：
在不重叠的局部窗口内计算自注意力，大幅降低计算量。
通过移窗在层级堆叠后逐步获得全局感受野与跨区域交互（非单层即全局），从而达到全局建模的效果。
可变形注意力 (Deformable Attention)：借鉴DCN的思想，Deformable DETR将其应用于Transformer。它不再计算所有位置的注意力，而是让每个查询（Query）只关注参考点周围的一小组可学习的采样点，极大地稀疏了注意力计算，加速了DETR类模型的收敛，并提升了对小目标的检测性能。
FlashAttention：一种IO感知的精确注意力算法内核。它通过分块计算和利用GPU片上SRAM高速缓存，最大限度地减少了高带宽内存（HBM）的读写次数，从而在不牺牲精度的情况下，显著加速了注意力计算并降低了显存占用，已在中大型 Transformer 的训练/推理中被广泛采用。
位置编码 (Positional Encoding)：由于自注意力机制本身是位置无关的，需要额外引入位置信息。从最初的绝对位置编码（ViT），到更灵活的相对位置编码，再到旋转位置编码 (Rotary Position Embedding, RoPE)，后者通过将位置信息编码为旋转矩阵作用于Query和Key，巧妙地引入了相对位置依赖，并具有良好的外推性，在视觉和语言模型中都得到了广泛应用。

3. 残差/跳连与多尺度融合：优化信息流动

残差连接 (Residual/Skip Connection)：由ResNet提出，是深度学习史上最重要的结构之一。它通过“恒等映射”的捷径，允许信息和梯度直接跨层流动，极大地缓解了深度网络训练中的梯度消失和退化问题，使得训练数百甚至上千层的网络成为可能。
特征金字塔网络 (Feature Pyramid Networks, FPN)：针对目标检测和分割中的多尺度问题，FPN提出了一种高效融合多层特征的“颈部”结构。它结合了自底向上的主干网络和一条自顶向下的通路，通过横向连接将高层的强语义特征与底层的精细空间信息进行融合，为不同大小的目标生成高质量的特征表示。

4. 通道注意力：让网络关注“什么”更重要

SE (Squeeze-and-Excitation) 模块：一种轻量级的“即插即用”通道注意力模块。它通过“Squeeze”（全局平均池化）操作获取每个通道的全局信息，然后通过“Excitation”（两个全连接层）学习通道间的非线性依赖关系，生成一组通道权重，最后将这些权重乘以原始特征图，从而动态地增强有用特征通道、抑制无关通道。
CBAM (Convolutional Block Attention Module)：在SE的基础上，CBAM进一步引入了空间注意力。它依次应用通道注意力模块和空间注意力模块，让网络不仅学习“什么”通道更重要，还学习“哪里”的空间位置更重要。

5. 归一化、激活与稳定化训练

归一化：BN（批归一化）、LN（层归一化）、GN（组归一化）、RMSNorm（只用均方根缩放）。用法经验：
BN：大多数 CNN 训练的默认；小批量/分布式同步时要小心。
LN：与序列/注意力天然契合，是 Transformer 家族标配。
GN：批小/显存紧时常替代 BN。
RMSNorm：更轻的归一化，近年在大模型里常见。
激活函数：ReLU（简单高效）、GELU（Transformer常用）、SiLU/Swish（在很多视觉骨干里表现稳）。
正则/稳训技巧：Dropout、Stochastic Depth（Drop-Path）在深网络/ViT里都常用；MixUp、CutMix 等“数据级算子”对泛化很有帮助。

6. 分割/检测头部与解码常用件

ASPP / PSP-Pooling：语义分割尾部的两大“多尺度上下文”模块（DeepLab、PSPNet）。
DETR 系列的“集合预测 + 匈牙利匹配”：把检测改写成端到端集合预测，去掉手工 NMS/锚框；其后的Deformable-DETR用稀疏采样注意力加速收敛、小目标更强。

二、视觉-语言（VL）的典型结构与连接方式

VL模型的核心在于如何让视觉和语言两个模态进行有效的交互与融合。

1. 模态交互范式：从对齐到深度融合

双编码器 + 对比学习 (CLIP 范式)：CLIP开创性地使用了该范式。它包含一个图像编码器和一个文本编码器，分别将图文对映到同一个高维特征空间。通过对比损失函数 (InfoNCE)，模型在训练中拉近匹配的图文对的特征向量，推远不匹配的图文对。这种方式学到的特征具有强大的泛化能力，尤其适用于零样本图像分类和跨模态检索任务。
融合编码器 / 交叉注意力 (Fusion-Encoder / Cross-Attention)：为了实现更深度的图文交互，这类模型通常在语言模型中插入交叉注意力层。在这些层中，文本的Token作为Query，去“查询”和“关注”由视觉编码器产生的视觉Token序列，从而将视觉信息深度融入到文本的生成或理解过程中。
查询器式视觉摘要 (Querying Transformer / Q-Former)：直接将大量的视觉Token（例如ViT输出的数百个Token）输入大语言模型（LLM）计算成本高昂。BLIP-2提出的Q-Former结构解决了这个问题。它使用一小组可学习的查询向量（Latent Queries），通过交叉注意力机制从冻结的图像编码器中“提取”与文本相关的、摘要性的视觉信息。这个固定长度的、信息浓缩后的视觉特征再被送入LLM，实现了在冻结大模型参数情况下的高效图文对齐。
Perceiver Resampler：与Q-Former类似，Flamingo模型中使用的Perceiver Resampler也是一种Token压缩模块。它同样使用一组固定的可学习查询向量，通过交叉注意力将变长的视觉特征序列（如图、视频帧）压缩成固定数量的“摘要Token”，有效降低了后续交叉注意力层的计算复杂度，尤其适用于处理多图或视频输入。

2. 新兴结构：面向长序列与高效率

状态空间模型 (State Space Models, SSM / Mamba)：Mamba作为一种新兴的序列模型，其计算和显存复杂度随序列长度线性增长，远优于Transformer的二次方复杂度。Vision Mamba (ViM) 等工作尝试将其应用于视觉任务，通过将图像展平为序列，利用SSM的双向扫描能力来捕捉全局上下文。在处理超高分辨率图像或长视频等长序列任务上，展现出巨大潜力，被视为Transformer的有力竞争者或补充。

三、发展脉络（简明时间线）

2012–2015：深度学习在CV领域取得突破。AlexNet开启了深度CNN时代；GoogLeNet的1x1卷积和ResNet的残差连接成为里程碑式的设计。
2016–2018：网络结构设计进入“精细化”阶段。MobileNet的深度可分离卷积引领了高效模型设计；空洞卷积在语义分割中大放异彩；Non-Local将自注意力引入CV；SE模块展示了通道注意力的威力。
2020–2021：Transformer架构开始主导CV领域。DETR将目标检测重塑为集合预测问题；Swin Transformer通过窗口化注意力实现了效率与性能的双赢；CLIP的双编码器+对比学习范式统一了视觉和语言的表示空间，成为VL领域的基石。
2022–2023：效率和与大模型结合成为焦点。FlashAttention成为训练和推理Transformer的标准内核；BLIP-2通过Q-Former为如何高效地将视觉信息接入冻结的LLM提供了范本。
2024–2025：追求更长的上下文和更高的效率。Vision Mamba等状态空间模型开始在视觉任务中挑战Transformer的地位，特别是在需要处理长序列的场景。VL模型向着多模态智能体、视频理解等更复杂的方向发展。

四、当前应用现状与选型建议

计算机视觉 (CV)

工业界主力：在大多数落地场景中，基于残差连接的CNN架构（如ResNet系列）依然是中流砥柱。在目标检测和分割任务中，FPN或其变体是标准的颈部结构。
效率优先场景：在移动端、边缘计算等对功耗和延迟敏感的场景，以深度可分离卷积为核心的轻量化网络（如MobileNet系列）是首选。
高性能需求：对于追求极致精度的云端任务或处理高分辨率图像，Swin Transformer及其变体，或者CNN-Transformer混合架构是常用选择。训练和推理时，使用FlashAttention内核已是共识。
前沿探索：Vision Mamba等SSM模型因其处理长序列的潜力，在医学影像、遥感图像分析和视频理解等领域正受到越来越多的关注。

视觉-语言 (VL)

跨模态检索与零样本分类：CLIP及其改进模型的双编码器结构仍然是该领域最基础和核心的技术。
多模态对话与生成：在构建视觉问答、图像描述生成等多模态大模型时，“冻结的视觉编码器 + 查询器式摘要模块（如Q-Former） + 冻结的LLM”已成为最主流、最高效的技术路线。
长视频/多图理解：对于需要处理大量视觉输入的任务，Perceiver Resampler等Token压缩技术是关键，而SSM/Mamba也因其线性复杂度优势，正被积极探索用于此类场景。

五、实操选型速查

任务：常规图像分类/检测/分割，性能与效率均衡
推荐组合：ResNet/ConvNeXt Backbone + Residual Connection + FPN (检测/分割) + SE/CBAM (可选增强)。
任务：移动端/边缘设备部署
推荐组合：MobileNet/ShuffleNet Backbone (核心是Depthwise Separable Conv) + SE。
任务：高分辨率图像处理或追求SOTA性能
推荐组合：Swin Transformer Backbone (核心是Windowed Attention) + FlashAttention 内核。
任务：构建多模态大模型（VLM）
检索/分类：CLIP-style Dual Encoder + Contrastive Loss。
对话/生成：Frozen ViT + Q-Former/Perceiver Resampler + Frozen LLM。
任务：超长视频理解/高分辨率医学影像分析
前沿选择：探索基于Vision Mamba (SSM)的架构。

所属专题AI 技术基础

发布时间2025-10-24 14:35

微信公众号智能大时代

一、 计算机视觉（CV）的经典结构与算子 ​

1. 感受野与卷积家族：构建视觉层次的基础 ​

2. 全局上下文与注意力：从局部到全局的跨越 ​

3. 残差/跳连与多尺度融合：优化信息流动 ​

4. 通道注意力：让网络关注“什么”更重要 ​

5. 归一化、激活与稳定化训练 ​

6. 分割/检测头部与解码常用件 ​

二、 视觉-语言（VL）的典型结构与连接方式 ​

1. 模态交互范式：从对齐到深度融合 ​

2. 新兴结构：面向长序列与高效率 ​

三、 发展脉络（简明时间线） ​

四、 当前应用现状与选型建议 ​

计算机视觉 (CV) ​

视觉-语言 (VL) ​

五、 实操选型速查 ​