你是否好奇,驱动ChatGPT、Sora等庞然大物的AI芯片内部,究竟在上演着怎样一场惊心动魄的“神仙打架”?
这场战争的核心,其实只为了解决一个从计算机诞生之初就存在的古老矛盾——冯·诺依曼瓶颈。
简单来说,就是计算大脑的思考速度太快,而数据粮食从仓库(内存)运来的速度太慢,导致“大脑”常常“饿肚子”、空转等待。
AI芯片的整个演进史,就是一场为了填平“大脑”与“粮仓”之间鸿沟的革命。这场革命,可以分为精彩纷呈的三幕剧。
👇👇👇
第一幕:优化旧范式 —— 让运粮车跑得更快! (GPU的暴力美学)
此阶段的思路是:既然“粮仓”和“大脑”分居两地是既定事实,那就把连接它们的“高速公路”修得无限宽、无限快!
头号玩家:GPU (图形处理器) 核心哲学:“大力出奇迹”的暴力美学。 GPU接受了“粮食必须从仓库搬运到大脑”的现实,并决定用极致的并行工程学,将运粮效率推向巅峰。
✅ 优点:十八般武艺样样精通的全能选手。可编程性极高,能适应各种AI算法,是模型训练和探索的王者。
❌ 缺点:开着航母去买菜,杀鸡用牛刀。能效比较低,功耗高昂,且“运粮”的本质没变,成本和延迟依然是瓶颈。
① 人海战术 (SIMT)
部署数千个计算核心(CUDA Core),像数千个工人同时干活,实现大规模并行处理。
- ② 超宽高速 (HBM)
采用3D堆叠的高带宽内存,好比修建了一条拥有几百个车道的超级高速,确保粮食供应源源不断。
- ③ 统一交规 (CUDA生态)
建立了一套成熟的“交通规则和导航系统”,让开发者能轻松地指挥千军万马。
独门绝技
- ① 人海战术 (SIMT)
部署数千个计算核心(CUDA Core),像数千个工人同时干活,实现大规模并行处理。
- ② 超宽高速 (HBM)
采用3D堆叠的高带宽内存,好比修建了一条拥有几百个车道的超级高速,确保粮食供应源源不断。
- ③ 统一交规 (CUDA生态)
建立了一套成熟的“交通规则和导航系统”,让开发者能轻松地指挥千军万马。
- 演进与融合:Tensor Core的诞生
面对第二幕“脉动阵列”思想的巨大成功,现代GPU进行了一次华丽的“自我革命”。它不再满足于只当一个“全能选手”,而是在自己的舰体上,搭载了专门用于AI任务的“特种部队”——Tensor Core(张量核心)。
这是什么?它是在GPU芯片内部嵌入的、专门用于矩阵乘加运算的硬件单元,其工作原理与TPU的脉动阵列思想高度相似。
效果如何? Tensor Core可以极其高效地执行AI的核心计算,为GPU带来了数十倍的理论性能提升和能效改进。
实力分析
✅ 优点:十八般武艺样样精通的全能选手。可编程性极高,能适应各种AI算法,是模型训练和探索的王者。又拥有Tensor Core这一“杀手锏”,能高效处理核心AI任务。其成熟的生态系统更是无人能及。
❌ 缺点:开着航母去买菜,杀鸡用牛刀。虽然Tensor Core让GPU在执行AI任务时不再是“杀鸡用牛刀”,而是用上了专属的“特制好刀”,但整个GPU平台(航母本身)为了维持其通用性和庞大的规模,其控制逻辑、功耗和成本依然远高于一个纯粹的ASIC(专用芯片)。“运粮”的本质瓶颈,也只是被极大地缓解,而未被根除。
第二幕:重构数据流 —— 精打细算,让粮食少跑一些! (数据的极致复用)
当“修路”的成本越来越高时,更聪明的思想家开始思考:我们能否重新设计“大脑”的“用餐流程”,让每一粒被辛苦运来的“粮食”,都能被反复利用,从而减少不必要的运输?
头号玩家:脉动阵列 (Systolic Array, 如谷歌TPU) 核心哲学:“精打细算”的生活智慧。 它不再纠结于加快运粮速度,而是通过重构计算流程,将数据复用率提升到极致。
✅ 优点:一滴油都要用在刀刃上。针对AI核心的矩阵运算进行了硬件固化,能效比远超GPU。
❌ 缺点:严重的偏科生。为特定运算而生,灵活性差,面对算法快速迭代有风险。研发投入巨大,属于“一锤子买卖”的ASIC芯片。
① 流水线作业
由大量简单的处理单元(PE)构成精密网格。数据像水流一样,有节奏地流过整个阵列,每经过一个处理单元,就被计算一次。
- ② 一粮多吃
一个数据加载后,可以在这条流水线上被重复使用上百次,极大地减少了回“粮仓”取粮的次数。
独门绝技
- ① 流水线作业
由大量简单的处理单元(PE)构成精密网格。数据像水流一样,有节奏地流过整个阵列,每经过一个处理单元,就被计算一次。
- ② 一粮多吃
一个数据加载后,可以在这条流水线上被重复使用上百次,极大地减少了回“粮仓”取粮的次数。
实力分析
❌ 缺点:严重的偏科生。为特定运算而生,灵活性差,面对算法快速迭代有风险,把压力放到了编译器,尤其面对训练场景。研发投入巨大,属于“一锤子买卖”的ASIC芯片。
✅ 优点:一滴油都要用在刀刃上。针对AI核心的矩阵运算进行了硬件固化,能效比远超GPU。
第三幕:消融边界 —— 革命!让大脑和粮仓合体! (基于时空数据流的存算一体)
当“让粮食少跑”也逐渐触及天花板时,最大胆的革命者站了出来,他们发出了灵魂拷问:
为什么“大脑”和“粮仓”一定要是两件分开的东西?为什么我们不能就地吃饭?
这一幕,展现了从宏观到微观、从激进到务实的三条探索路径。
【宇宙级】空间换时间:把整个城市建成一个家 (Cerebras)
- 思想
在宏观物理尺度上,直接消除距离。
- 做法
在一整片硅晶圆上制造一颗史无前例的巨大芯片,集成了近百万个计算核心和海量片上内存。相当于把整个城市的“大脑”和“粮仓”都建在了一栋超级大楼里,彻底告别交通拥堵。
- 评价
性能极致,但成本极其高昂,是只属于超算中心的“天价屠龙刀”。
【理想派】道法自然:利用物理定律搞计算 (模拟存算一体)
- 思想
返璞归真,不再用数字逻辑“模拟”运算,而是直接利用物理定律“完成”运算,追求能效的理论极限。
- 做法
利用忆阻器等新材料的电阻直接存储权重,通过欧姆定律,让电流流过的瞬间就完成乘加运算。
- 评价
理论上能效颠覆性地高,但物理世界太“毛躁”,精度、可靠性、制造成本是巨大挑战,是一条充满荆棘的理想主义之路。
【务实派】数字世界闹革命:在粮仓里塞进计算器 (数字存算一体)
- 思想
在成熟、可靠的数字世界内部进行渐进式革命,用确定性换取一部分极限能效。
- 做法
改造我们最熟悉的SRAM存储单元,将简单的数字逻辑门(如异或门)嵌入其中。将复杂的乘加运算,拆解为可以在存储阵列内部就地完成的、大量的简单位运算。
- 评价
当前最具落地潜力的方案。它完美兼容现有CMOS工艺,成本可控,同时保持了数字计算的精确可靠,在能效和实用性之间取得了绝佳平衡。然而,存算一体架构对编译器的要求极高,尤其如何提高时空数据流下的芯片利用率。
总结:没有银弹,只有融合的未来
AI芯片的架构演进,清晰地展现了一条思想主线:从优化搬运(GPU),到减少搬运(TPU),再到最终无需搬运(存算一体)。
没有一种架构是完美的“银弹”,每一种都是在性能、能效、成本、灵活性、可靠性这五个维度上做出的不同权衡。
未来,不属于任何单一的胜利者,而属于异构融合(Heterogeneous Integration)。
就像玩乐高积木一样,通过先进的 Chiplet (芯粒) 技术,将不同架构的优势(如GPU的灵活、存算一体的高效)模块化,并根据应用场景,自由组合成一颗“超级芯片”。这,才是实现AI算力普惠化和最优化的最终答案。