Skip to content

在人工智能生成内容(AIGC)领域,扩散模型(Diffusion Models)近年来出现了一系列技术突破。从令人惊艳的图像生成,到高保真的音频合成,再到前沿的科学发现,扩散模型正以其强大的生成能力和理论完备性,重新定义着AI创造力的边界。

本文系统剖析扩散模型的原理、训练机制、核心应用及其在跨领域中的巨大潜力。

一、 核心原理:一场“先破坏,再修复”的艺术

扩散模型的核心思想源于非平衡热力学,其灵感在于:一个有序的数据结构(如一张清晰的图片)可以被逐步、迭代地注入随机噪声,直至其完全变成一个纯粹的、无结构的噪声分布(如高斯噪声)。反之,如果我们能学会如何逆转这个过程,就能从一个随机噪声出发,逐步“去噪”,最终恢复出一个清晰、有序的数据。

这个过程由两个关键部分组成:

1. 前向过程(Forward Process / Diffusion Process):破坏数据

前向过程是一个精心设计的、从有序到无序的退化流程。它虽然看起来是在“破坏”数据,但其真正的目的是为后续的“修复”过程(反向过程)提供无数的“问题-答案”训练样本。每一个模糊的  和用于制造它的噪声,都构成了一对宝贵的学习材料,用来教会神经网络如何“看透”噪声,找到隐藏在其中的原始信号。

想象一下,你手上有一张清晰无比的风景照片。现在,我们想通过一个非常严谨、可控的方式,一步步地“毁掉”它,直到它变成一幅毫无意义的雪花点(也就是纯粹的随机噪声)。这个“破坏”的过程,就是扩散模型的前向过程。

它的核心思想不是粗暴地乱涂乱画,而是一种渐进式、有条不紊的信息侵蚀

这个过程可以分解为几百甚至上千个微小的步骤(我们称之为“时间步”,从  到 )。在每一个步骤中,我们都会做同一件事:给当前这幅稍微有点模糊的图片,再添加一层极其微弱、符合特定数学规律(高斯分布)的噪声。

这个过程最精妙的一点在于它的数学确定性。由于我们完全清楚每一步添加了多少、什么样的噪声,整个过程变得高度可控。这带来了一个巨大的便利:我们不需要真的慢悠悠地从第一步走到第一千步。

科学家们发现了一个“捷径”公式,可以让我们从最初的清晰照片  一步直达任意中间步骤  的模糊状态 。

  • 初始状态:这是我们最开始的清晰照片,我们称之为 。它包含了所有的原始信息。
  • 第一步:我们给  蒙上一层薄如蝉翼的“静电噪声”。现在得到的图片  和原作几乎看不出区别,但从数据的角度看,它已经被轻微地“污染”了。
  • 中间步骤:我们不断重复这个过程。给  加一点噪声得到 ,再给  加一点噪声得到 …… 随着时间步  的数字越来越大,图片也变得越来越模糊、越来越混沌。早期加入的噪声量很小,以保留大部分结构;越往后,我们添加噪声的“剂量”会逐渐加大,加速破坏过程。
  • 最终状态:当走完所有步骤后,得到的最终图片  已经完全看不出原来是什么了。它变成了一片纯粹的、杂乱无章的噪声,就像没信号的老电视屏幕。至此,原始照片的所有信息都被噪声彻底淹没了。

2. 反向过程(Reverse Process / Denoising Process):修复数据

这才是扩散模型的核心与魔法所在。我们的目标是学习一个模型,让它能够逆转上述过程:给定一个噪声版本的数据 ,模型需要预测出其“前身”  的分布 。理论上,如果每一步添加的噪声  足够小,这个逆向过程的分布也近似于一个高斯分布。

模型的任务就变成了预测这个高斯分布的均值和方差。然而,直接预测均值在实践中效果不佳。研究者们发现,让模型去预测在第  步被添加到  上的噪声  会更加稳定和有效

因此,反向过程的核心就变成了:训练一个神经网络(通常是 U-Net 结构),输入是加噪的数据  和当前时间步 ,输出是对噪声  的预测 。

二、 模型训练原理:学会“看山不是山,看水不是水”

扩散模型的训练目标非常直观:让神经网络预测的噪声  与前向过程中实际添加的噪声  尽可能接近。

训练流程如下:

  1. 随机采样:从训练数据集中随机选择一个真实样本 (如一张图片)。

  2. 随机时间步:随机选择一个时间步 (从 1 到 )。

  3. 生成噪声:从标准高斯分布中随机采样一个噪声 。

  4. 构造训练样本:利用前向过程的公式,直接计算出  在  时刻的加噪版本 。

  5. 模型预测:将  和时间步  输入到神经网络  中,得到预测噪声 。

  6. 计算损失:计算预测噪声与真实噪声之间的差异,通常使用均方误差(MSE)损失:

  7. 优化:使用梯度下降法更新神经网络的参数 ,以最小化这个损失。

通过在所有数据、所有时间步上进行海量重复训练,这个神经网络就逐渐学会了在不同噪声水平下精准地识别并分离出信号与噪声。

三、 常用应用:从无条件生成到精准控制

学会了从噪声生成数据后,如何控制生成的内容是关键。这催生了多种强大的应用。

1. 图像到图像(Image-to-Image, Img2Img)

Img2Img 的目标是根据一张输入图像和文本提示(Prompt),生成一张新的、风格或内容被修改的图像。其原理是在标准的扩散过程中引入“初始噪声”的起点。

  • 工作流程:我们不再从纯噪声  开始,而是将输入图像  通过前向过程加噪到一个中间时间步 (比如 ),得到 。这个  保留了原始图像的大部分结构信息,但又具有一定的随机性。
  • 去噪生成:接下来,模型以这个  为起点,结合文本提示作为条件,执行反向去噪过程,直到 。由于起点不是纯噪声,最终生成的图像会忠于原始图像的结构和布局,但细节、风格和颜色则会根据文本提示进行重绘。去噪的起始步长 (即“去噪强度”)决定了对原图的忠实度。 越大,自由发挥的空间就越大。

2. 精准控制:ControlNet

当我们需要对生成图像的构图、布局和主体姿态进行精确控制时,仅靠文本提示往往不够。ControlNet 技术就是为了解决这个问题而设计的,它为扩散模型增加了一层强大的“视觉引导”。

核心原理非常巧妙:它并没有修改或重新训练庞大的预训练扩散模型(如 Stable Diffusion),而是为其附加了一个小型的、可训练的“控制”网络。

工作流程如下

简单来说,如果说主模型是一位才华横溢的画家,那么 ControlNet 就相当于给了这位画家一张必须严格遵守的结构草稿。画家依然可以自由发挥色彩、材质和风格(根据文本提示),但最终画出的人或物体的姿态与位置,会与草稿图精准对应,从而实现了从“想法”到“精确设计”的跨越。

  1. 双重条件输入:模型在生成时不仅接收文本提示(如“一个跳舞的宇航员”),还会接收一张额外的控制图。这张图可以是人物的骨骼姿态、物体的边缘线稿,或是场景的深度图。

  2. 结构信息注入:这个外挂的 ControlNet 网络会从控制图中提取关键的结构信息(例如姿态的走向、物体的轮廓)。

  3. 引导生成:在反向去噪的每一步,ControlNet 都会将这些结构信息“注入”到主模型中,像一个严格的蓝图一样,强制主模型在生成图像时必须遵循这张图的布局和姿态。

3. 加速生成:潜在一致性模型 (LCM)

传统扩散模型需要迭代几十步,限制了其在实时交互领域的应用。潜在一致性模型(Latent Consistency Models, LCMs)的出现,就是为了实现“一步出图”的极致加速。

  • 核心原理:“模型蒸馏”。可以理解为一个强大的“老师”模型(标准扩散模型)花费几十步精心画出一张完美的图像。然后,我们训练一个聪明的“学生”模型(LCM),让它学习如何仅用一步就直接从初始噪声得到和老师一样的“最终答案”。
  • 工作流程:“学生”模型通过学习,将“老师”多步、复杂的推理过程“蒸馏”并压缩到了单步的计算中。在实际使用时,我们直接运行这个轻快高效的LCM模型,它能够以1到8步(甚至单步)极快的速度生成高质量图像,而不再需要20-50步的漫长等待。

四、 跨领域应用:万物皆可“扩散”

扩散模型的核心是学习数据分布的去噪函数,这一范式具有极高的普适性。只要能够为特定类型的数据定义合适的“噪声”模型和表示空间,就可以将扩散范式迁移过去。以下是其在多个领域的代表性应用:

  • 音频 / 语音 / 音乐
  • 神经声码器与文本到语音(TTS):可以直接在原始音频波形上进行扩散和去噪,生成高保真度的语音,且生成过程是非自回归的,速度快。代表工作如 DiffWave
  • 文本到音频/音乐生成:在压缩后的音频潜空间(Latent Space)中进行扩散,效率更高。结合文本嵌入作为条件,可以生成复杂的音效和音乐段落,如 AudioLDM 和 Stable Audio
  • 3D 与科学内容生成
  • 文本到3D资产生成:利用强大的2D图像扩散模型作为“评分函数”,指导神经辐射场(NeRF)等3D表示的优化,从而“蒸馏”出3D模型。这种思路被称为分数蒸馏采样(Score Distillation Sampling, SDS),代表工作是 DreamFusion
  • 蛋白质结构设计:在蛋白质的3D几何结构空间中进行扩散,可以设计出具有特定功能的新蛋白质(RFdiffusion),或预测药物小分子与蛋白质的对接姿态(DiffDock),在生物医药领域潜力巨大。
  • 机器人 / 决策与规划
  • 机器人操控策略:将机器人的动作序列视为一个需要去噪生成的“轨迹”。通过模仿学习,扩散模型可以生成平滑、稳定且高性能的操控策略,如 Diffusion Policy
  • 离线强化学习:将决策过程建模为序列生成问题,利用扩散模型在离线数据集中学习最优策略,代表工作 Decision Diffuser
  • 时间序列 / 气象与气候
  • 缺失值填补与预测:将时间序列数据中的缺失部分视为“噪声”,利用条件扩散模型进行概率性的填补和预测,如 CSDI
  • 气象超分辨率:将低分辨率的气象格点数据通过扩散式下采样,生成高分辨率、细节丰富的物理一致性天气预报,如 NVIDIA 的 CorrDiff
  • 逆问题与科学成像重建
  • 统一的重建框架:在医学成像(MRI, CT)或天文图像处理中,观测数据往往是真实信号经过物理过程(如模糊、噪声、欠采样)退化后的结果。扩散模型可以作为强大的生成先验,结合物理模型约束,从退化的观测数据中高质量地重建出原始信号。
  • 表格数据与离散序列
  • 合成表格数据:为混合类型的表格数据(数值+类别)设计扩散过程,用于生成合成数据,以保护隐私或处理数据不平衡问题,如 TabDDPM
  • 文本生成:虽然主流文本生成仍是自回归的 LLM,但离散扩散模型(D3PM)和在连续词向量空间中去噪的 Diffusion-LM 也展示了其在文本填充、可控生成等任务上的潜力。

结语

扩散模型不仅仅是一种强大的“文生图”工具,它代表了一种全新的生成式建模哲学。其“从噪声到数据”的核心思想,使其能够突破数据模态的限制,优雅地应用于从视觉艺术到基础科学,再到工程决策的广阔领域。随着理论的不断完善和计算效率的提升,扩散模型必将继续在人工智能的各个角落掀起创新的浪潮,成为驱动未来科技发展的核心引擎之一。

返回专题 · AI 技术基础上一篇:计算机视觉(CV)与视觉语言(VL)模型的经典结构与算子下一篇:强化学习概述

持续沉淀企业 AI 技术内容。