传统人工智能常见算法和落地参考

在人工智能新范式时代，大家有必要了解下人工智能都有哪些算法，以便针对具体场景找到合适的解决方案。当前大语言模型（LLM）非常火热，以至于一提到人工智能，几乎就等同于在说大模型。从能与人对答如流的聊天机器人，到妙笔生花的文章生成器，大模型的强大能力确实令人惊叹。但是，人工智能的算法远不止大模型，还有许多经典而高效的算法，它们在特定领域中，不仅能够以远低于大模型的算力和数据需求，出色地完成任务，甚至表现得更为出色，事实上，很多场景（尤其工业场景）也不需要大模型的世界知识和推理能力。

需要说明的是，人工智能算法，本质上是庞大算法家族中的一个分支，其核心特长在于从数据中学习模式以进行预测和决策。除此之外，还有其他同样至关重要的算法类别。例如，数值计算（包含线性代数、微分方程、傅里叶变换、小波分析等）是科学与工程的基石，通过近似计算解决复杂的数学方程，广泛应用于天气预报、桥梁结构的有限元分析等领域；运筹优化算法（整数优化、路径规划、生产调度、资源分配）则致力于在有限的资源和约束下寻找最优解，是现代物流（路径规划）、供应链管理、航空公司排班等场景的大脑，通常由高效的商业求解器（Solver）来解决；以及遗传算法、粒子群算法等启发式算法，模仿生物进化或行为过程，为一些复杂的组合优化问题寻找高质量的近似解。

相较于这些主要解决数学或逻辑上确定性问题的算法，人工智能算法的独特之处在于其处理不确定性和从数据中“归纳”出规律的能力。这篇文章我们梳理一下人工智能各种算法的特点，探讨它们的内在逻辑、鲜明特点，尤其“量化”展示与大模型在算子、算力、内存、数据等系统落地关注需求上的差异。你会发现，在许多场景下，我们完全不必动用“屠龙刀”，一把“瑞士军刀”或许更加得心应手。

监督学习（Supervised Learning）：针对目标学习

监督学习是最为常见和成熟的人工智能技术分支。顾名思义，它就像一个学生在老师的监督下学习，人工为算法提供带有“标准答案”的“习题集”（即标记好的数据），让它从中学习规律，然后去解答没有答案的“考试题”（即新的数据）。

线性回归 (Linear Regression) 与逻辑回归 (Logistic Regression)

基本原理监督学习的“入门级”选手，旨在找到一条线或一个面来拟合或分割数据。线性回归用于预测连续值（如房价），逻辑回归则用于分类（如判断邮件是否为垃圾邮件）。
主要计算算子向量点积、加法。
训练流程1）随机初始化模型的权重。2）对于每一个数据样本，使用当前权重进行预测。3）计算预测值与真实“标准答案”之间的误差（损失）。4）根据误差，使用梯度下降等优化算法，微调权重，使误差变小。5）重复步骤2-4，直到模型的误差小到可以接受。
参数量与耗时估计
1）参数量极少，等于特征数量 + 1。对于一个有100个特征的模型，参数量仅为101个。2）耗时极快。在数万条数据上训练通常只需几秒到几十秒。推理耗时在微秒级。
算力与内存需求极其亲民。训练一个处理数万行数据的模型，内存占用可能仅为几MB到几十MB。普通笔记本电脑CPU完全可以胜任，完全无需GPU。
数据量需求要求不高，一个包含10个特征的模型，可能只需要几百条数据就能开始训练。
适用场景金融领域的信用评分、市场营销中预测用户点击广告的可能性。其结果易于解释，深受业务部门喜爱。

支持向量机 (Support Vector Machine, SVM)

基本原理一种强大的分类算法，其核心思想是在数据空间中找到一个能将不同类别分隔开的“最宽的街道”，即最大间隔超平面。这使得模型具有更好的泛化能力。通过“核技巧”（Kernel Trick），SVM能高效处理非线性问题，仿佛将数据映射到更高维度，让原本线性不可分的数据变得可分。
主要计算算子向量点积、核函数计算（如高斯核）。
训练流程其训练过程是一个求解凸二次规划问题，目标是最大化支持向量（离决策边界最近的点）到决策边界的间隔。
参数量与耗时估计
1）参数量模型由“支持向量”决定，参数量与支持向量的数量成正比，通常远少于样本总量。2）耗时训练时间复杂度较高，对大规模数据集（如超过10万样本）训练会变得很慢。推理速度快。

算力与内存需求内存消耗主要与数据集大小有关。训练过程计算密集，但通常在CPU上完成，无需GPU。

数据量需求在中小型数据集上表现优异，尤其是在高维空间（特征数多于样本数）的场景下。
适用场景在深度学习流行前，是许多分类任务的王者。现今在文本分类、图像识别、生物信息学等领域，尤其是当中小规模、高维度数据场景下，仍是极具竞争力的选择。

下面2种算法，是将多种基础模型组合起来使用，思想的核心是“三个臭皮匠，顶个诸葛亮”，这种多个算法组合起来使用的方法有个统称“集成学习”。“集成学习”可分为2个流派：1）Bagging：让多个学习器“并行”学习，各自独立训练，最后通过“投票”或求平均来做决策，代表算法是随机森林；2）Boosting：让学习器们“串行”学习，一个接一个地训练，后者主要弥补前者的不足，代表算法是梯度提升机。

决策树 (Decision Tree) 与随机森林 (Random Forest)

基本原理决策树模仿人类的决策过程，通过一系列“如果...那么...”的判断来分类。随机森林则更进一步，通过构建多棵决策树并“投票”决定最终结果，来提升准确性和稳定性。
主要计算算子比较、计数。核心在于遍历特征，找到最优的分割点来划分数据。
训练流程1）从所有特征中依据评估指标选择一个最优特征作为当前节点。2）根据该特征的不同取值，将数据集分割成多个子集。3）对每个子集，递归地重复步骤1和2，直到子集中的所有样本都属于同一类别，或达到预设的停止条件（如树的深度）。4）随机森林则是重复此过程，每次随机选择一部分特征和样本来构建多棵不同的树。
参数量与耗时估计1）参数量取决于树的数量和深度，通常存储为规则集。2）耗时训练速度快。在数十万条数据上训练随机森林，在多核CPU上通常需要几分钟到半小时。推理速度极快，毫秒级。
算力与内存需求内存占用小，一个包含100棵树的随机森林模型，大小通常在几十MB左右。CPU是主力，GPU并非必需品。
数据量需求几百到几千条数据就可以构建一个不错的模型。
适用场景医疗行业，常被用于医疗诊断辅助系统。在零售业，可用来分析顾客购买行为，进行精准推荐。

梯度提升 (Gradient Boosting, 如XGBoost, LightGBM)

基本原理决策树的“进阶版”，也是处理表格数据的王者。它并非像随机森林那样让树“各自为战”，而是采用一种串行的方式，像一个专家团队。第一棵树先做一个初步预测，第二棵树专门学习第一棵树的错误，第三棵树再学习前两棵树的综合错误……如此迭代，每一棵新树都专注于弥补前面所有树的不足。
主要计算算子梯度计算、排序、计数。核心在于计算损失函数的梯度，并以此为目标训练下一棵树。
训练流程1）从一个简单的预测开始（例如所有样本的平均值）。2）计算当前模型预测与真实值之间的差异（残差或梯度）。3）训练一棵新的决策树，去拟合上一步计算出的残差。4）将这棵新树加入到模型中，更新整体预测。5）重复步骤2-4，直到树的数量达到预设值或模型性能不再提升。
参数量与耗时估计1）参数量同随机森林，模型大小取决于树的数量和复杂度。2）耗时训练速度极快。得益于高度工程优化，在百万级数据上训练通常在几分钟到一小时内完成。推理速度极快，毫秒级。
算力与内存需求内存效率高。在处理数百万行数据时，内存占用通常在数百MB级别。CPU上表现优异，GPU可以进一步加速，但非必需。
数据量需求从几千到数百万行的数据都能很好地适应。
适用场景几乎是所有涉及结构化表格数据竞赛（如Kaggle）的首选。在金融欺诈检测、广告点击率预估等领域，其性能往往超越复杂的深度学习模型。

传统深度学习

在监督学习大家族中，有一类特殊的算法——神经网络，它们也是深度学习的基础。虽然它们同样需要“标准答案”，但其复杂的结构使其能够学习到远比传统模型更深层次、更抽象的特征。

多层感知机 (Multi-Layer Perceptron, MLP) / 全连接神经网络

基本原理最基础的神经网络结构，由输入层、若干隐藏层和输出层构成。通过层与层之间神经元的全连接和非线性激活函数，实现对复杂关系的拟合。它是更复杂的CNN和RNN的基础构件。
主要计算算子矩阵乘法、激活函数（ReLU等）。
训练流程标准的“前向传播-计算损失-反向传播-更新权重”循环。
参数量与耗时估计1）参数量灵活可变。一个用于图像分类（如MNIST）的简单MLP，参数量可能在几十万到百万级别。2）耗时在6万张图片的MNIST数据集上，CPU训练约需几十分钟，普通GPU上则不到一分钟。推理为毫秒级。
算力与内存需求模型大小通常为几MB到几十MB。简单模型在CPU上即可训练，GPU能显著加速。
数据量需求比传统机器学习模型要求更高，通常需要数千至数万个样本以避免过拟合。
适用场景作为更复杂模型的组件（如分类头），或用于非结构化程度不高的简单分类和回归任务。

卷积神经网络 (Convolutional Neural Network, CNN)

基本原理CNN专门用于处理图像这类网格状数据。它不像传统图像处理方法人工处理各种特征，而是通过一种叫做“卷积核”的“小窗口”在图像上滑动。这个小窗口就像一个特征探测器，有的负责探测边缘，有的负责探测颜色，有的负责探测纹理。通过层层卷积与池化（降采样），CNN能从最基础的像素点，逐步识别出线条、形状，最终到整个物体。
主要计算算子卷积、逐元素计算、池化（最大值/平均值）、矩阵乘。
训练流程1）随机初始化网络中所有卷积核和全连接层的权重。2）前向传播输入一张图片，经过一系列卷积、激活、池化层提取特征，最后通过全连接层得到分类预测结果。3）计算损失比较预测结果和真实标签的差异。4）反向传播将损失从后向前逐层传播，计算出每个权重对总损失的“贡献度”（梯度）。5）权重更新根据梯度，微调所有权重，使得下次预测时损失更小。6）在整个数据集上重复此过程。
参数量与耗时估计1）参数量经典模型如ResNet-50参数量约为2500万。轻量级移动端模型（如MobileNet）可压缩至几百万。2）耗时训练耗时较长。在ImageNet（百万级图片）上训练ResNet-50需在多GPU环境下花费数天。在几万张图片的自定义数据集上训练，单GPU通常需要几小时到一天。推理一张图片在GPU上为几毫秒到几十毫秒。
算力与内存需求一个经典的ResNet-50模型大小约100MB。训练过程计算密集，强烈推荐使用GPU。
数据量需求通常需要数千到数百万张标注好的图片才能获得良好性能。
适用场景图像识别的绝对主力。从手机相册的自动分类，到自动驾驶车辆的目标检测，再到医疗影像（如CT、X光片）的病灶识别。

循环神经网络 (Recurrent Neural Network, RNN)

基本原理RNN专为处理“序列”数据而设计，例如文本、语音或时间序列。它的独特之处在于拥有“记忆”，网络中的神经元在处理完一个元素（如一个单词）后，会把信息编码成一个“隐藏状态”，并传递给处理下一个元素的自己。这样，对当前单词的理解就包含了前面所有单词的信息。LSTM和GRU是RNN的流行变体，它们通过更精巧的“门控”机制，解决了普通RNN的长期记忆问题。
主要计算算子矩阵乘、各种门控单元的计算（包含大量的逐元素计算）。
训练流程1）随机初始化权重。2）前向传播按时间步输入序列。在每个时间步，网络接收当前输入和上一步的隐藏状态，计算出当前输出和新的隐藏状态。3）计算损失比较整个序列的输出和真实标签序列的差异。4）沿时间反向传播 (BPTT)将损失从序列的末尾反向传播到开头，计算每个时间步的梯度。5）权重更新根据累积的梯度更新权重。6）在所有序列上重复此过程。
参数量与耗时估计1）参数量一个用于文本分类或机器翻译的中等规模LSTM模型，参数量通常在数百万到数千万。2）耗时由于其序列依赖性，训练并行度不如CNN。中等规模的翻译任务在单GPU上可能需要训练一到两天。推理一个句子的耗时与句子长度有关，通常为几十到几百毫秒。
算力与内存需求模型本身大小（几十到几百MB）不算庞大，但训练时由于序列依赖性，并行计算不如CNN容易。对于复杂任务和长序列，GPU是必需的。
数据量需求需要大量的序列数据，例如大量的文本语料或长期的股票价格数据。
适用场景在Transformer架构（大模型的基础）出现之前，RNN是自然语言处理的王者，广泛用于机器翻译、情感分析、语音识别。在今天，它依然是时间序列预测（如天气预报、股票预测）的有力工具。

无监督学习（Unsupervised Learning）：在探索中发现规律

不同于监督学习，无监督学习的数据没有“标准答案”，需要算法自己去探索数据中隐藏的结构和规律。值得一提的是，当前大语言模型在预训练阶段的核心思想也属于无监督（或自监督）学习，它通过预测文本中的下一个token来学习语言的内在规律。

K-均值聚类 (K-Means Clustering)

基本原理最经典的聚类算法。目标是将数据分成K个簇（cluster），使得同一个簇内的数据点尽可能相似。
主要计算算子距离计算（如欧氏距离）、求均值。
算法流程1）随机选择K个数据点作为初始的“簇中心”。
2）分配计算每个数据点到这K个簇中心的距离，并将其分配给最近的那个簇。
3）更新重新计算每个簇的中心点（即该簇所有点的平均值）。
4）重复步骤2和3，直到簇中心不再有明显变化。
参数量与耗时估计1）参数量仅需存储K个簇中心，参数极少。2）耗时计算效率高，通常称为“拟合”而非“训练”。在百万级数据点上运行，CPU上通常在几分钟内完成。
算力与内存需求内存需求主要取决于数据点数量。通常在CPU上运行，无需GPU。
数据量需求对数据量没有严格要求，几百个高质量数据点就能发现有意义的模式。
适用场景电商平台利用K-均值进行客户细分、社交网络分析中发现兴趣社群。

主成分分析 (Principal Component Analysis, PCA)

基本原理最经典的降维算法。它旨在通过线性变换，将高维数据投影到保留了最多信息（即方差最大）的低维空间中。它能帮助我们从纷繁复杂的特征中提取出最关键的“主成分”，实现数据压缩和可视化。
主要计算算子协方差矩阵计算、特征值分解。
算法流程1）计算数据矩阵的协方差矩阵。2）对协方差矩阵进行特征值分解。3）选取最大的k个特征值对应的特征向量，组成投影矩阵。4）将原始数据与投影矩阵相乘，得到降维后的新数据。
参数量与耗时估计1）参数量模型主要是投影矩阵，参数量为原始维度 x 目标维度。2）耗时计算主要集中在特征值分解，对于大数据集可能较慢。但一旦模型计算完成，对新数据的转换（推理）速度极快。
算力与内存需求内存消耗与数据维度和数量的平方成正比。完全在CPU上运行，无需GPU。
数据量需求没有严格要求，但数据量太少可能导致协方差矩阵估计不准。
适用场景数据可视化（将高维数据降到二维或三维进行观察）、数据预处理（作为后续监督学习模型的降噪和特征提取步骤）、图像压缩。

强化学习（Reinforcement Learning）：在试错中进化

强化学习模拟生物学习的过程，智能体（Agent）在一个环境中不断尝试，根据行为获得奖励或惩罚，并从中学习如何做出最优决策来最大化长期回报。

基本原理强化学习的核心是学习一个最优策略（Policy），即一个从环境状态到应采取行动的映射。实现这一目标主要有两大类方法：

基于价值（Value-Based）不直接学习策略，而是学习一个“价值函数”，用来评估在某个状态下采取某个行动有多好（如Q-Learning, DQN）。策略是隐式的，即总是选择价值最高的行动。
基于策略（Policy-Based）直接对策略进行参数化建模和优化。模型直接输出在某个状态下应该采取什么行动（或采取各个行动的概率）。这类方法更适用于连续动作空间或随机策略场景。
演员-评论家（Actor-Critic）则结合了上述两者。它包含两个网络：“演员（Actor）”负责根据状态选择动作（策略网络），“评论家（Critic）”负责评估演员所选动作的好坏（价值网络），然后评论家指导演员进行自我优化。AlphaGo的成功以及当前大模型通过人类反馈进行对齐（RLHF），都深度借鉴了强化学习的思想。

主要计算算子使用深度神经网络时，核心算子是矩阵乘法和卷积（若输入为图像）。此外，基于策略的方法还包含从概率分布中采样的算子。
训练流程（以Actor-Critic为例）：

交互演员（Actor）观察当前状态，输出一个动作并与环境交互。
反馈环境返回一个奖励和下一个状态。
评估评论家（Critic）根据环境反馈，评估演员上一步动作的“好坏程度”（计算优势函数）。
更新根据评论家的评估，更新演员的网络参数（好的动作的概率被提升，坏的则被抑制）；同时，也利用环境的真实奖励来更新评论家自身，使其评估更准。
不断重复以上过程。

参数量与耗时估计 1）参数量

取决于其内部神经网络的规模。用于玩Atari游戏的DQN或A2C模型，参数量通常在一百万到数百万。2）耗时训练非常耗时。训练一个能高水平玩Atari游戏的模型，在单个高端GPU上通常需要数天时间。

算力与内存需求简单的表格型强化学习任务可在CPU上完成。但凡涉及与深度学习结合（Deep RL），就需要GPU来加速训练，内存需求也可能上升到几个GB。
数据量需求不直接需要静态“数据集”，而是通过与环境的海量交互（通常是数百万到数亿次“试错”）来实时产生数据并学习。
适用场景游戏AI（训练超越人类水平的玩家）、机器人技术（控制、路径规划）、自动驾驶决策、金融交易策略制定。

模型资源需求对比

与动辄需要数千个GPU、数月训练时间、消耗TB级甚至PB级数据、模型参数高达千亿的大语言模型相比，上述许多经典算法显得格外“轻盈”和“经济”。

算法类别	典型参数量	典型模型大小/内存	大致数据量需求	算力需求 (CPU/GPU)
逻辑回归	数百	几MB - 几十MB	数百至数万条	CPU
支持向量机	取决于支持向量数	取决于数据大小	数百至数万条	CPU
随机森林	N/A	几MB - 数百MB	数百至数十万条	CPU (GPU可加速)
梯度提升机	N/A	几十MB - 数百MB	数千至数百万条	CPU (GPU可加速)
CNN (ResNet-50)	~2500万	~100 MB	数万至数百万图片	训练必需GPU
RNN (LSTM)	数百万-数千万	几十MB - 数百MB	数千至数百万序列	推荐GPU
K-均值聚类	数十至数百	取决于数据大小	数百至数百万条	CPU
PCA	`D_orig x D_targ`	取决于数据大小	数百至数百万条	CPU
大语言模型 (LLM)	数十亿-数千亿	数十GB - 数百GB	数TB - 数PB	必需高端GPU集群

这种“经济”正是它们的优势所在。在许多场景下，我们追求的并非是能写诗作画的通用智能，而是一个能够快速、准确、低成本地解决特定问题的工具。

对于需要高度解释性的领域如金融风控和医疗诊断，一个逻辑清晰的决策树或梯度提升机模型远比一个“黑箱”的大模型更值得信赖。
对于结构化数据任务在处理客户信息、销售记录等表格数据时，梯度提升机（XGBoost）往往比最先进的深度学习模型效果更好、训练更快。
对于资源受限的边缘设备在智能手机、物联网设备上，不可能部署一个庞大的语言模型。经过优化的CNN或传统算法才是实现本地化、低延迟智能的关键。
对于问题边界清晰的任务如果你的目标只是对图像进行特定分类或预测产品的销量，专门为此设计的CNN或回归算法，其效率和成本效益将远超通用的大模型。

所属专题AI 技术基础

发布时间2025-09-03 13:04

微信公众号智能大时代