现在全社会在跑步进入人工智能时代,每个人都需要了解点人工智能知识,本篇整理了从最底层芯片到最上层应用层的“人工智能系统”相关知识点,供大家参考。
本篇采用倒叙结构,一共分为四个层次,先讲最上层的应用,因为想了解这块的同学最多,最后再讲芯片。
对AI应用感兴趣、想快速做出来一个小AI产品的朋友,可以在了解第四层基本概念后,从 Dify 上手试用,几分钟搭建一个智能体或RAG系统。
对智能体原理感兴趣的朋友,可以继续研究 LangChain 的各个组件。
对深度学习算法感兴趣的朋友,推荐 Ian Goodfellow 的《深度学习》,对机器学习基本原理感兴趣的朋友,可以看一下周志华的《机器学习》。
对算法底层实现、编译器和芯片层感兴趣的朋友,可以买一本陈云霁的《智能计算系统》(寒武纪),也可以看看陈天奇的《机器学习系统》(天奇的课程资源都是网上公开的);这个大方向通常称为 MLsys。
第四层:AI应用与智能体 (Top Layer: Applications & Agents)
一、主要概念
对话式AI (Conversational AI): 这是当前AI最广为人知的应用形态。它利用大语言模型的自然语言理解和生成能力,通过聊天、问答等形式与用户交互,完成信息查询、内容创作、任务助手等功能。它代表了人机交互范式的一次革命,从图形用户界面(GUI)向语言用户界面(LUI)的演进。
AI智能体 (AI Agent): 这是超越简单问答的AI新范式。一个AI智能体是一个能够感知其环境、自主进行规划和决策、并采取行动以达成特定目标的计算实体。它不仅仅是回答问题,更是主动完成任务,具备“思考 -> 计划 -> 执行 -> 评估”的闭环能力。
多智能体系统 (Multi-Agent System - MAS): 由多个独立的AI智能体组成的系统。在MAS中,智能体之间可以进行通信、协作、协商甚至竞争,以解决单个智能体无法胜任的、更为复杂的系统性问题。例如,模拟一个公司运营,由“CEO智能体”分配任务给“市场智能体”和“研发智能体”。
人机协同 (Human-in-the-Loop): 指在AI系统的工作流程中,关键节点由人类进行监督、干预和确认。这并非AI能力的不足,而是一种确保应用可靠性、安全性和符合伦理的设计哲学。人类专家可以校准AI的判断、处理模糊情景,同时AI可以从人类的反馈中持续学习、进化。
生成式AI应用 (AIGC Applications): 指所有利用生成式模型来创造全新数字内容的应用。这涵盖了文案写作、代码生成、艺术创作、音乐谱曲、视频制作等多个领域,其核心价值在于极大地降低了内容创作的门槛,并以指数级提升了创作效率。
AI原生应用 (AI-Native Application): 指那些从一开始就围绕AI核心能力进行设计和构建的应用,AI不是一个附加功能,而是其产品的灵魂。例如,Midjourney的存在完全依赖于AI绘画模型;基于大模型的聊天网站完全依赖于大语言模型。
垂直领域应用 (Vertical/Domain-Specific Application): 指将通用AI大模型的能力,通过特定领域的数据进行微调和整合,以解决特定行业(如金融、医疗、法律、教育)痛点的应用。这通常需要将AI模型与行业知识图谱、业务流程和专用工具深度结合。
自然语言接口 (Natural Language Interface - NLI): 将自然语言作为与计算机、网络、复杂软件系统或数据库交互的主要方式。用户不再需要学习复杂的命令或点击繁琐的菜单,而是可以直接用日常语言下达指令(例如,“帮我找出上个季度销售额最高的前五个产品”),AI负责将指令翻译并执行。
智能体即服务 (Agent-as-a-Service - AaaS): 一种新兴的商业模式,指的是提供预构建的、可定制的、能够执行特定业务功能(如客户服务、数据分析、招聘筛选)的AI智能体。企业可以像订阅SaaS软件一样,快速地在自己的业务流程中部署和使用这些智能体。
提示工程 (Prompt Engineering): 在与生成式AI(特别是LLM)交互时,设计和优化输入提示(Prompt)以获得理想输出的艺术和科学。它已经成为驱动顶层应用效果的关键技能,优秀的提示可以解锁模型的高级能力,而糟糕的提示则可能导致无效或错误的输出。
二、主要技术
检索增强生成 (RAG - Retrieval-Augmented Generation): 这是解决大模型“幻觉”和知识更新问题的核心技术。当面对一个问题时,系统首先从一个外部的、可信的知识库(如公司内部文档、数据库)中检索最相关的信息片段,然后将这些信息片段连同原始问题一起作为提示,送给大语言模型,让它基于给定的上下文来生成答案。
工具使用 / 函数调用 (Tool Use / Function Calling): 赋予AI模型调用外部API或工具的能力,从而打破其只能处理文本的限制。模型可以决定何时以及如何调用一个工具(如查询天气、预订机票、执行代码、操作数据库),并将工具返回的结果整合到其后续的思考和回答中。
任务规划与分解技术 (Task Planning & Decomposition): AI智能体实现自主性的核心。它指智能体将一个模糊的、高层次的目标(如“帮我组织一次团队建设活动”)分解为一系列具体的、可执行的子任务(1. 调研目的地;2. 统计参与人数;3. 预订交通和酒店…)并形成行动计划的能力。常见技术框架如ReAct (Reason and Act)。
Agentic框架 (Agentic Frameworks): 用于简化和标准化AI智能体开发的软件库。它们提供了一系列组件和工具,用于构建智能体的核心循环(思考、规划、工具调用),管理记忆,以及与其他系统进行交互。
嵌入与向量数据库 (Embeddings & Vector Databases): RAG和长期记忆的技术基石。嵌入模型(Embedding Model)将文本、图片等非结构化数据转化为高维向量。向量数据库则专门用于存储这些向量,并能进行高效的“相似性搜索”,快速找到与用户查询在语义上最接近的数据。
记忆机制 (Memory Mechanisms): 为了让AI在长对话或多步任务中保持上下文一致性,需要为其设计记忆机制。
- 短期记忆:
通常指模型自身的上下文窗口(Context Window)。
- 长期记忆:
将对话历史或关键信息进行摘要,并存储在向量数据库中,在需要时进行检索。
低代码/无代码AI平台 (Low-Code/No-Code AI Platforms): 提供图形化界面,让非技术背景的业务人员可以通过拖拽、配置的方式,快速构建和部署自己的AI应用或聊天机器人,极大地降低了AI的应用门槛。
多模态融合技术 (Multimodal Fusion): 在应用层处理和结合来自不同模态信息的技术。例如,一个应用接收到用户的语音指令和一张图片,需要融合语音中的意图和图片中的内容,才能准确理解用户的完整需求。
安全与防护技术 (Safety & Guardrail Technologies): 在AI应用的输出端设置的一系列“护栏”。包括敏感词过滤、有害内容检测、话题限制、以及更高级的“宪法AI”(Constitutional AI)技术,确保AI的回答是无害、符合伦理和法律规范的。
输出解析与格式化 (Output Parsing & Formatting): 确保AI模型的输出能够被其他程序或系统稳定地使用。这包括让模型以特定的格式(如JSON、XML)输出,或者设计解析器来从非结构化的自然语言输出中提取结构化信息。
三、代表性产品
对话式AI / 智能助手:
豆包 (字节跳动):
国内市场的代表性对话式AI产品。
- ChatGPT (OpenAI):
引领了生成式AI革命的现象级产品。
- Gemini (Google):
Google集大成之作,深度整合搜索和多模态能力。
内容创作工具:
代码生成:
Qwen Code,Cursor。
- 文本写作:
WPS, Notion AI (指集成在笔记软件中)。
- 图像生成:
Qwen Image, Midjourney。
智能体构建平台:
Dify (开源):
知名行业开源智能体平台,众多公司和开发者使用。
- Coze (扣子):
字节跳动推出的无代码/低代码聊天机器人和AI智能体开发平台。
- 开源框架:
LangChain, LlamaIndex, AutoGen (Microsoft),为开发者提供了构建复杂AI应用的强大工具集。
行业与企业级应用:
客户服务:
大量由AI驱动的智能客服机器人,提供24/7的客户支持。
- 医疗健康:
AI辅助影像诊断(如达摩院),加速新药研发的蛋白质结构预测(如AlphaFold)。
- 办公协同:
Microsoft 365 Copilot ,将生成式AI能力深度集成到文档、表格、邮件等日常办公软件中。
第三层:核心算法与模型 (Core: Algorithms & Models)
一、主要概念
机器学习范式 (Machine Learning Paradigms): 这是算法学习方式的根本分类。
- 监督学习 (Supervised Learning):
算法从带有“正确答案”的标记数据(如,图片标记为“猫”)中学习,目标是预测新数据的标签。这是最常见和最成熟的范式。
- 无监督学习 (Unsupervised Learning):
算法从没有标签的数据中学习,目标是发现数据中隐藏的结构或模式,如聚类(将相似数据分组)或降维(提取关键特征)。
- 强化学习 (Reinforcement Learning):
算法通过与环境的互动来学习。它通过试错(Trial-and-Error)来行动,并根据获得的奖励或惩罚来调整策略,以最大化长期总回报。
- 自监督学习 (Self-Supervised Learning):
一种特殊的无监督学习,它从数据自身创造“伪标签”来进行监督式训练。例如,在文本中随机遮盖一个词,让模型预测被遮盖的词是什么。这是现代基础模型预训练的核心思想。
表示学习 (Representation Learning): 也称为特征学习,是深度学习成功的关键。传统机器学习需要专家手动设计特征(特征工程),而深度学习模型能够自动地、分层次地从原始数据(如像素、字符)中学习到越来越抽象和有用的特征表示。
基础模型 (Foundation Model): 指在一个极大规模、多样化的数据集上进行预训练,从而具备广泛通用知识和能力,并能快速适应(微调)到多种下游任务的模型。它们是AI领域从“为每个任务单独训练模型”向“一个模型适应多个任务”范式转变的体现。
大语言模型 (Large Language Model - LLM): 基础模型在自然语言处理领域的杰出代表。它通过在海量文本语料上进行自监督学习,掌握了复杂的语言规律、事实知识和一定的推理能力,能够理解和生成高度连贯和相关的文本。
多模态 (Multimodality): 指模型能够同时理解、处理和关联来自不同类型数据(模态)的信息,如文本、图像、音频、视频等。一个多模态模型可以看图说话,或根据一段描述生成视频,实现了更接近人类的综合感知能力。
生成式AI (Generative AI): 与判别式AI(Discriminative AI)相对。判别式模型学习的是数据间的决策边界(如分类),而生成式模型学习的是数据的底层分布,从而能够创造出全新的、与训练数据风格类似但内容原创的数据。
上下文学习 (In-Context Learning): 大语言模型涌现出的一种惊人能力。无需更新模型权重,仅通过在输入提示(Prompt)中提供几个任务示例(Few-shot),模型就能理解任务意图并对新的查询给出正确格式的回答。
泛化与过拟合 (Generalization & Overfitting): 泛化指模型在未见过的、新的数据上表现良好的能力,这是衡量模型好坏的根本标准。过拟合则指模型过度学习了训练数据中的细节和噪声,导致在训练集上表现完美,但在新数据上表现很差。
模型偏见与公平性 (Model Bias & Fairness): AI模型是从数据中学习的,如果训练数据中存在现实世界的偏见(如性别、种族歧视),模型将会学习并可能放大这些偏见。确保模型的公平性,避免其做出歧视性决策,是AI伦理中的核心议题。
可解释性AI (Explainable AI - XAI): 旨在开发一系列技术和方法,使人类能够理解和信任AI模型的决策结果。对于复杂的“黑箱”模型(如深度神经网络),XAI试图解释“模型为什么会做出这个预测”,这在金融、医疗等高风险领域至关重要。
二、主要技术与架构
Transformer架构: 革命性的神经网络架构,是现代LLM的基石。其核心是自注意力机制 (Self-Attention Mechanism),它允许模型在处理序列中的一个元素时,动态地评估序列中所有其他元素的重要性并加权,从而高效地捕捉长距离依赖关系。
卷积神经网络 (CNN - Convolutional Neural Networks): 在计算机视觉领域取得巨大成功的经典架构。它通过模拟人类视觉皮层的处理方式,利用卷积层来提取局部特征(如边缘、纹理),再通过池化层进行降维,逐层构建出对图像内容的层次化理解。
循环神经网络 (RNN - Recurrent Neural Networks) 及其变体 (LSTM/GRU): 为处理序列数据(如文本、时间序列)而设计的架构。RNN拥有一个“记忆”单元(隐藏状态),可以传递前一时刻的信息到当前时刻。长短期记忆网络(LSTM)和门控循环单元(GRU)通过引入精巧的“门控”机制,解决了标准RNN的梯度消失/爆炸问题,能更好地处理长序列。
生成对抗网络 (GAN - Generative Adversarial Networks): 一种巧妙的生成模型框架。它由两个相互博弈的神经网络组成:一个生成器 (Generator) 负责创造以假乱真的数据,一个判别器 (Discriminator) 负责分辨真实数据和生成数据。通过这种对抗性训练,生成器最终能产出高质量的生成内容。
扩散模型 (Diffusion Models): 当前最先进的图像生成技术之一。它包含两个过程:一个固定的前向过程,逐步向图像中添加高斯噪声直至其变为纯噪声;一个学习的反向过程,训练一个神经网络来逆转这个加噪过程,即从纯噪声中逐步去噪,最终恢复出一张清晰的图像。
强化学习算法 (RL Algorithms):
- Q-Learning / DQN:
基于价值的算法,学习一个Q函数来评估在特定状态下采取某个动作的好坏。深度Q网络(DQN)使用深度神经网络来近似Q函数。
- 策略梯度 (Policy Gradients) / PPO:
直接学习一个策略函数,即在给定状态下输出一个动作的概率分布。近端策略优化(PPO)是目前最流行和稳健的策略梯度算法之一。
强化学习与人类反馈 (RLHF - Reinforcement Learning from Human Feedback): 校准和对齐大语言模型的关键技术。它通过训练一个奖励模型来拟合人类对模型输出的偏好,然后使用这个奖励模型作为信号,通过强化学习(如PPO)来微调语言模型,使其生成的内容更符合人类的期望(更有用、更无害、更诚实)。
专家混合模型 (MoE - Mixture of Experts): 一种用于构建超大规模神经网络的架构。它将一个巨大的前馈网络层替换为多个较小的“专家”网络和一个“门控”网络。对于每个输入,门控网络会选择性地激活少数几个最相关的专家来进行计算,从而在保持模型参数总量巨大的同时,显著降低了单次推理的计算成本。
图神经网络 (GNN - Graph Neural Networks): 专门用于处理图结构数据的神经网络架构。它通过在图的节点之间传递和聚合信息,来学习节点的表示,适用于社交网络分析、分子结构预测、推荐系统等场景。
对比学习 (Contrastive Learning): 一种强大的自监督学习方法。其核心思想是,在表示空间中将一个样本的“正例”(如同一图像的不同增强版本)拉近,同时将其与“负例”(其他样本)推远。通过这种方式,模型可以学到对数据变换具有不变性的高质量特征表示。
三、代表性模型
大语言模型 (LLM):
DeepSeek (DeepSeek):
各项能力行业领先,颠覆行业玩法。
- Qwen系列 (阿里):
行业开源模型领导者,在各尺度模型、代码模型、图像生成各领域表现非常出色。
- Claude系列 (Anthropic):
AI Coding表现最好的模型,Cursor、Claude Code的核心。
文生图模型:
Stable Diffusion (Stability AI / RunwayML):
一款强大的开源扩散模型,以其高质量的图像生成能力和活跃的社区生态而广受欢迎。
- DALL-E 3 (OpenAI):
集成在ChatGPT中,以其对复杂文本提示的深刻理解和高质量的图像生成而著称。
- Midjourney:
一个独立的AI绘画服务,以其独特的艺术风格和惊艳的视觉效果而闻名。
其他里程碑式模型:
AlphaGo / AlphaZero (DeepMind):
结合了深度学习和强化学习,在围棋领域击败了人类世界冠军,是AI在复杂决策任务上取得突破的里程碑。
- BERT (Google):
基于Transformer编码器的双向语言表示模型,它的出现革新了NLP领域,确立了预训练-微调的范式。
- ResNet (Microsoft Research):
通过引入“残差连接”成功训练了前所未有的深度卷积神经网络,解决了深度网络的退化问题,是计算机视觉领域的经典之作。
第二层:中间框架与平台 (Middleware: Frameworks & Platforms)
一、主要概念
张量 (Tensor) 作为核心数据结构: 在数学上,张量是向量和矩阵(二维)向更高维度的推广(例如图像3维、视频4维)。在AI框架中,所有数据——无论是输入(文本、图像)、模型参数(权重、偏置)还是中间计算结果——都被表示为多维数组,即张量。这是AI编程的基本单元。
计算图 (Computational Graph): 这是AI框架用来表示模型运算流程的蓝图。图中的节点(Nodes)代表运算(如矩阵乘法、卷积),边(Edges)代表在运算间流动的张量。这种表示方法使得框架可以清晰地分析依赖关系,进行自动求导和计算优化。
自动微分 (Automatic Differentiation - Autograd): 训练神经网络的核心是反向传播算法,它需要计算损失函数对每个模型参数的梯度(导数)。自动微分是框架的一项核心功能,它能够根据计算图自动、精确地计算出这些复杂的梯度,将开发者从繁琐的手动求导中解放出来。
算子 (Operator - Op) 与核 (Kernel): 算子是计算图中的基本运算单元,如“加法”、“卷积”、“ReLU激活”等,它定义了运算的逻辑。核是算子在特定硬件(如CPU、GPU)上的具体、高度优化的实现代码。一个算子可以对应多个核,框架会根据硬件类型选择最高效的核来执行。
硬件抽象层 (Hardware Abstraction Layer - HAL): 这一层的作用是“屏蔽”底层硬件的差异性。开发者使用统一的框架API(如tensor.to('cuda'))编写代码,而框架的硬件抽象层会自动将其翻译成特定于硬件的指令(如NVIDIA的CUDA或AMD的ROCm),从而实现“一次编写,到处运行”。
深度学习框架 (Deep Learning Framework): 这是一个集成了张量计算、自动微分、算子库、模型构建API以及硬件加速支持的综合性软件库。它为开发者提供了从零开始构建、训练和评估复杂神经网络所需的全套工具。
机器学习运维 (MLOps - Machine Learning Operations): MLOps是一套旨在实现机器学习全生命周期(数据准备 -> 模型训练 -> 模型部署 -> 监控与再训练)自动化和标准化的实践、原则和文化。它借鉴了软件工程中的DevOps思想,强调实验可追溯、模型可复现和部署可持续。
模型服务与推理引擎 (Model Serving & Inference Engine): 模型训练完成后,需要将其部署到生产环境中以提供服务(即推理)。模型服务框架负责接收请求、进行预处理、调用模型进行预测,并将结果返回。推理引擎则专注于对已训练好的模型进行极致优化(如量化、算子融合),以在实际部署中达到最低延迟和最高吞吞吐量。
分布式计算范式 (Distributed Computing Paradigm): 为了训练参数量巨大的模型,必须使用多台机器或多个GPU协同工作。主要范式包括:
- 数据并行 (Data Parallelism):
将训练数据分成多份,每个计算设备上都有一份完整的模型副本,并行处理不同批次的数据。
- 模型并行 (Model Parallelism):
将单个巨大的模型切分到不同的计算设备上,因为模型太大无法装入单个设备的内存中。
模型中心与生态系统 (Model Hub & Ecosystem): 现代AI开发严重依赖于开源和共享。模型中心(如Hugging Face Hub)是预训练模型、数据集和相关工具的集中存储库。开发者可以方便地下载最先进的模型进行微调,或上传自己的模型进行分享,这极大地加速了AI研究和应用的迭代。
二、主要技术
CUDA (Compute Unified Device Architecture): 由NVIDIA推出的并行计算平台和编程模型。它允许开发者使用C++、Python等语言直接编写在NVIDIA GPU上运行的程序。几乎所有主流深度学习框架都依赖CUDA来实现GPU加速。
ONNX (Open Neural Network Exchange): 一个用于表示深度学习模型的开放格式。它充当了不同框架之间的“通用语言”,允许开发者在一个框架中训练模型(如PyTorch),然后转换成ONNX格式,再用另一个框架或推理引擎(如TensorRT)进行部署。
TensorRT: NVIDIA开发的一款用于高性能深度学习推理的SDK。它接收训练好的模型(通常通过ONNX),并针对特定的NVIDIA GPU进行一系列优化,包括层与张量的融合、内核自动调整以及模型量化(FP16/INT8),以实现推理速度的最大化。
Kubernetes & Kubeflow: Kubernetes是业界领先的开源容器编排系统。Kubeflow是构建在Kubernetes之上的项目,致力于将机器学习工作流的部署、扩展和管理变得简单、可移植和可扩展,是实现MLOps的事实标准技术之一。
容器化技术 (Docker): Docker等容器技术可以将代码、运行时、系统工具、库和配置打包到一个独立的、可移植的“容器”中。在AI领域,它确保了从开发到生产环境的一致性,极大地简化了模型部署和依赖管理。
分布式训练框架 (Horovod, DeepSpeed):
- Horovod:
由Uber开源,是一个易于使用的分布式深度学习训练框架,可以与TensorFlow、PyTorch等无缝集成,简化了数据并行的实现。
- DeepSpeed:
由微软开源,是一个专注于大规模模型训练优化的库,它集成了一系列先进技术(如ZeRO优化器)来同时支持数据并行、模型并行和流水线并行。
远程过程调用 (RPC) 框架 (gRPC): 由Google开发的开源高性能RPC框架。在模型服务中,它被广泛用于构建客户端与模型服务器之间的通信,实现低延迟、高吞吐量的数据交换。
模型量化与剪枝库 (Model Quantization & Pruning Libraries): 这些是框架内置或作为第三方库提供的工具,用于实现模型压缩。量化技术将模型参数从高精度浮点数转换为低精度整数,剪枝技术则移除模型中不重要的连接或权重,从而减小模型体积、降低计算复杂度。
JIT (Just-In-Time) 编译器: PyTorch的torch.jit等技术允许将灵活的动态图模型转换为静态图表示,并进行编译优化。这结合了动态图的易用性和静态图的高性能,特别适合将模型从研究原型转化为生产部署。
统一内存技术 (Unified Memory): 在CUDA等技术中,统一内存允许CPU和GPU共享同一个内存空间,简化了在异构系统中的编程。程序员无需手动在CPU和GPU内存之间拷贝数据,系统会自动处理数据迁移,提高了开发效率。
三、代表性工具/平台
核心深度学习框架:
PyTorch (Meta / Linux Foundation):
以其灵活性、易用性和强大的社区支持在学术界和研究领域占据主导地位,并且在工业界的应用也越来越广泛。
- TensorFlow (Google):
拥有非常成熟和强大的生态系统,特别是在生产部署、移动和边缘设备(TensorFlow Lite)以及大规模分布式训练方面表现出色。
- JAX (Google):
一个面向高性能数值计算和机器学习研究的Python库,其核心是可组合的函数变换(如自动微分、JIT编译、向量化),深受研究人员喜爱。
云端AI平台 (MLaaS - Machine Learning as a Service):
Amazon SageMaker (AWS):
提供端到端的机器学习服务,覆盖从数据标注、模型构建、训练、调优到一键部署和监控的全流程。
- Google Vertex AI:
整合了Google Cloud上所有AI和机器学习服务的统一平台,强调MLOps和AutoML能力。
- Microsoft Azure Machine Learning:
微软云提供的全面机器学习平台,支持从初学者到专家的各种技能水平,并与Azure生态系统深度集成。
模型中心与社区:
Hugging Face Hub:
已成为事实上的AI模型和数据集的开源中心,拥有数以十万计的预训练模型、数据集和示例代码,极大地推动了NLP及其他领域的发展。
- ModelScope:
阿里维护的国内AI模型和数据集开源中心,平替Hugging Face,每天可以免费调用2000次主流模型API,行业最慷慨。
- TensorFlow Hub & PyTorch Hub:
各自框架官方的模型共享平台。
推理与部署工具:
vLLM:
一个高效、轻量级的大型语言模型推理引擎,专注于提升生成式 AI 模型的推理速度与资源利用率,大模型推理默认都用这个。
- OpenVINO (Intel):
用于优化和部署AI推理的工具套件,专门针对Intel的CPU、集成显卡和专用AI加速器进行优化。
第一层:底层硬件与芯片架构
一、主要概念
并行计算 (Parallel Computing): 这是AI硬件的灵魂。与传统CPU擅长的串行逻辑任务不同,AI计算(如矩阵乘法)可以被分解为数千个独立的简单计算任务。并行计算就是指同时执行这成千上万个任务,从而实现数量级的性能提升。
异构计算 (Heterogeneous Computing): 指在一个系统中使用不同类型的计算单元(如CPU、GPU、ASIC、FPGA)协同工作。每种单元处理其最擅长的任务:CPU负责复杂的逻辑控制和串行任务,而GPU/ASIC等加速器则专注于大规模并行计算,从而实现系统整体性能和效率的最优化。
能效比 (Energy Efficiency / Performance per Watt): 衡量在消耗每瓦特电力时能够提供多少计算性能的指标(如TOPS/W,每秒万亿次运算/瓦)。在大型数据中心和功耗受限的边缘设备上,高能效比是决定硬件方案可行性的关键因素。
内存带宽 (Memory Bandwidth): 指处理器与内存之间数据传输的速率。AI模型通常包含数以亿计的参数,计算单元需要极快地读取这些参数和输入数据。内存带宽是AI芯片性能的主要瓶颈之一,高带宽是保证计算核心不“挨饿”的前提。
可扩展性与互联 (Scalability & Interconnection): 随着模型规模爆炸式增长(如万亿参数模型),单一芯片的算力已无法满足训练需求。可扩展性指通过高速互联技术将成百上千颗芯片连接成一个庞大的计算集群,使其像一台超级计算机一样协同工作的能力。
专用集成电路 (ASIC - Application-Specific Integrated Circuit): 为特定应用(如此处的神经网络计算)量身定制的芯片。通过在硬件层面固化算法的核心操作,ASIC可以实现相比通用芯片(如CPU)最高的性能和能效比,但代价是失去了灵活性。
现场可编程门阵列 (FPGA - Field-Programmable Gate Array): 一种硬件电路可被“重新编程”的芯片。它在ASIC的极致效率和GPU的通用性之间提供了一种折衷。FPGA非常适合算法快速迭代或需要高度定制化数据通路的应用场景。
内存计算 (In-Memory Computing / PIM): 一种颠覆性的计算范式,旨在打破传统冯·诺依曼架构中计算与存储分离带来的“内存墙”瓶颈。它通过在内存单元内部或附近直接执行计算,极大减少了数据搬运带来的延迟和功耗。
数据精度与量化 (Data Precision & Quantization): 传统计算使用32位或64位浮点数(FP32/FP64),精度高但计算和存储开销大。研究发现,在AI推理甚至训练中,使用更低精度的表示(如16位浮点数FP16、8位整数INT8)通常不会显著影响模型准确率,但可以成倍提升计算速度、减少内存占用和功耗。
边缘计算 (Edge Computing): 指在数据源头(如手机、摄像头、汽车)附近进行计算,而不是将数据全部发送到云端。这要求边缘AI芯片具备低功耗、小体积、低延迟和高能效的特点,以在资源受限的环境下实时处理数据。
二、主要技术
GPU (图形处理器): 通过成千上万个流处理器(Streaming Multiprocessor)实现大规模并行计算。NVIDIA的CUDA平台为此类编程提供了成熟的生态系统,使其成为AI训练和推理的通用标准。
TPU (张量处理单元): Google设计的ASIC,其核心是脉动阵列 (Systolic Array)技术。脉动阵列是一种高效的并行计算结构,数据像心跳一样在处理单元阵列中流动,极大地优化了矩阵乘法和卷积运算的效率和吞吐量。
NPU (神经网络处理器): 专门为加速神经网络计算而设计的处理器统称,广泛集成在智能手机SoC和各种边缘设备中。它们通常包含专门的硬件单元来处理卷积、激活函数等常见神经网络操作。
高带宽内存 (HBM - High Bandwidth Memory): 一种3D堆叠内存技术,通过在物理上将多个DRAM芯片堆叠起来,并使用超宽的接口与处理器连接,提供了远超传统DDR内存的带宽,是解决AI芯片内存瓶颈的关键技术。
高速互联技术 (High-Speed Interconnect):
- NVLink (NVIDIA):
NVIDIA开发的用于GPU之间点对点高速互联的总线技术,其带宽远高于传统PCIe,是构建多GPU服务器和集群的关键。
- CXL (Compute Express Link):
一种开放标准的互联协议,允许CPU与加速器、内存设备之间实现高速、高效、低延迟的缓存一致性连接,对异构计算至关重要。
Chiplet (小芯片/芯粒) 技术: 将一个原本巨大的单片芯片(Monolithic Chip)分解为多个功能独立的、更小的“芯粒”,然后通过先进的封装技术将它们互联在一起。这种技术可以提高良品率、降低设计成本,并能灵活地混合搭配不同工艺的芯粒。
神经拟态计算 (Neuromorphic Computing): 模仿生物大脑结构和信息处理方式的计算技术。它使用“脉冲神经网络”(SNNs),以事件驱动的方式进行异步计算,在处理时序数据和需要极低功耗的感知任务上展现出巨大潜力。
3D堆叠与先进封装 (3D Stacking & Advanced Packaging): 将多个芯片或Chiplet在垂直方向上堆叠起来,并通过硅通孔(TSV)等技术进行连接。这不仅能缩小芯片系统的物理尺寸,还能极大缩短信号传输距离,从而提高速度、降低功耗。
RISC-V 架构: 一种开放、免费的指令集架构。其开放性和模块化的特性使其成为设计定制化AI加速器的理想选择,公司可以自由地添加自定义指令来加速特定的AI工作负载,而无需支付高昂的架构授权费。
光子计算 / 光学计算 (Photonic/Optical Computing): 利用光子代替电子作为信息载体进行计算。光子计算有望实现超高计算速度、超低延迟和极低的功耗,尤其在矩阵运算等特定领域,被视为突破摩尔定律限制的未来技术之一。
三、代表性芯片
寒武纪 (Huawei):
产品:
思元590 AI处理器。
- 简介:
致力于打造人工智能领域的核心处理器芯片,国内第一批AI芯片设计者,股价3年涨30倍,超过茅台。
华为 (Huawei):
产品:
昇腾 (Ascend) 910 AI处理器。
- 简介:
华为自研的高性能AI芯片,基于其创新的达芬奇架构,旨在为云、边、端场景提供全栈AI解决方案。
NVIDIA:
产品:
A100、H100、B200 Tensor Core GPU;Grace Hopper Superchip (将CPU与GPU通过高速互联技术NVLink-C2C整合)。
- 简介:
AI计算领域的领导者,其GPU产品线和CUDA软件生态系统构成了行业标准,广泛用于云端AI训练和推理。
Google:
产品:
Cloud TPU v4, v5。
- 简介:
专为加速其TensorFlow和PyTorch框架而设计的ASIC,通过Google Cloud平台提供服务。在超大规模模型训练上展现出极高的性价比和能效比。