AI 停滞的真正原因:不是处理器“堵车”了
2023 年春天,《ChatGPT》震撼全球后,微软首次公开表态。
“数据中心电力不足。”
并非因为 AI 热潮突然增加了电力消耗。问题更古老,也更根本。
全球数据中心消耗的电力中,30%-40% 未用于计算。
数据在内存和处理器之间,处理器和内存之间移动——移动本身就消耗了能源。
价值数万亿的 AI 系统,实际上近一半的时间都在等待。
就像一辆拥有强大引擎的汽车却被堵在交通拥堵中。
问题不在引擎。是道路堵塞了。
1. 内存墙的物理定律
半导体行业人士将此问题称为 “内存墙 (Memory Wall)”。这是 1994 年首次提出的概念。
处理器速度每年都在飞速增长,而内存和处理器之间的数据传输速度却无法跟上其速度的物理限制。-> 30 年过去了。墙没有消失。反而更高了。
英伟达 H100 GPU 每秒可处理数万亿次运算。
然而,当该 GPU 实际执行推理任务时——当用户问“这句话后面会是什么?”时——运算单元本身空闲的时间超过了一半。这是**<等待数据到达的时间>**。
为何会发生这种情况?看看当前服务器主流内存 DDR5 的结构就能找到答案。
DDR5 数据总线是单向车道。读 (Read) 和写 (Write) 共享同一物理线路。
当数据从内存中读出时,其他数据无法写入。
每次方向改变时,都需要等待信号稳定。
这段等待时间称为“总线转向延迟 (Bus Turnaround Penalty)”。
每次转向约耗费 15-20 个时钟周期,物理上为 11-15 纳秒。
纳秒?那有多长时间?
向 ChatGPT 输入问题,响应会以单词为单位逐字输出。
生成一个单词的过程中,GPU 会重复进行数亿次内存读写。
每次改变方向时都会等待。数亿次等待。微小的损失累积数亿次,就不是微小的损失了。
问题不止于性能下降。
等待期间,内存总线也会通电。
即使不发送数据,也会通过充电和放电电路的寄生电容来消耗电力。
AI 在思考时,电力在无所事事地消耗。
这就是数据中心电力危机的真实结构。
问题不在于先进的 AI 计算。而在于先进的 AI“等待”的方式。
2. 血管堵塞,心脏也无济于事
人体有“心脏强壮就健康”的直觉。
但如果动脉堵塞了呢?再强大的心脏也无法将血液输送到身体的各个角落。心力衰竭并非总是心脏本身的问题。
计算机架构也一样。
处理器越强大,数据供应的“血管”问题就越突出。因为与强大的心脏相比,血管太狭窄了。
这个比喻并非仅是修辞,因为实际人体血液循环和数据互连之间的运作原理惊人地相似。
血液循环的关键在于,将氧气“输送到”组织,并将二氧化碳“带回”肺部,这两个方向的流动是同时进行的。
动脉和静脉使用完全分离的路径。
因此,氧气供应和废物清除是同时进行的。
如果动脉和静脉共享同一条血管,血液在每次改变方向时都必须停止流动并等待。
DDR5 就是那个糟糕的想象中的血管。
CXL (Compute Express Link) 的结构是分离动脉和静脉的。
CXL 基于 PCIe (PCI Express) 物理层。
PCIe 最初的设计就是全双工 (Full-Duplex) 方式,物理上分离了发送数据的线路 (TX) 和接收数据的线路 (RX)。读数据在 RX 线上流动时,写数据可以通过 TX 线路同时传输。
转向延迟从结构上就消失了。
实证数据显示了这种差异。
在读写混合流量的环境中——实际 AI 工作负载正是这种情况——与同等时钟速度的 DDR5 通道相比,CXL 系统的有效带宽提高了 55%-61%。
当然,CXL 也有成本。
通过 PCIe 数据包处理和外部控制器,信号延迟 (Latency) 会增加。
-> DDR5 的延迟为 75-85 纳秒,而 CXL 的延迟为 130-200 纳秒。信号到达时间增加了近一倍。
那么 CXL 不是更慢吗?
这里需要区分两个概念。
延迟 (Latency) 是第一个数据到达所需的时间。
带宽 (Bandwidth) 是单位时间内可以传输多少数据。
快车不常来,和稍微慢一点的车却络绎不绝,这是有区别的。
GPT-4、LLaMA、Gemini 等大型语言模型进行推理时,需要持续不断地获取数千亿个参数数据。
决定性能的是数据供应的持续性,而非单次响应速度。
在这种环境下,带宽的优势足以弥补延迟的损失。血管变粗了。心脏能更好地跳动了。
3. 被闲置的内存如何变成钱
比技术改进更直接吸引眼球的是谈钱。
当前大型数据中心管理员最头疼的现象之一是 “闲置内存 (Stranded Memory)”。翻译过来就是“孤立的内存”或“被闲置的内存”。
在当前的服务器结构中,内存物理上固定在各自的 CPU 节点上。
如果节点 A 的 CPU 忙碌停止工作,该节点上的 256GB 内存就会静止不动,什么也不做。
即使节点 B 需要更多内存,也无法借用节点 A 的内存。物理障碍阻碍了它。
将这种情况扩展到数据中心规模,规模就不同了。
在数千台服务器中,实际负载高的节点只是其中的一部分。
其余节点的大部分内存都被闲置,消耗着电力。
理论上内存容量足够,但特定节点却出现内存不足。因此购买更多内存。在已有闲置内存的情况下。
CXL 交换机将打破这种结构。
基于 CXL 的内存池化 (Memory Pooling) 架构中,物理内存通过虚拟化交换机连接到一个共享资源池。
当节点 B 需要内存时,可以从池中以 1GB 为单位立即分配。
节点 B 的任务完成后,内存会返回到池中,供其他节点使用。
这对服务器容量规划意味着什么?
在传统方式下,为了应对峰值负载,必须“过度配置”内存。
即使实际未同时使用,也必须为每个节点预留足够的内存以应对最坏情况。
这个过度部分就是闲置内存的本质。
在 CXL 池化环境中,可以优化利用整体内存资源,
因此,为了处理相同的负载,需要购买的物理内存总量减少了。
此外,与在每个节点上塞满超高密度 RDIMM 不同,可以通过在 CXL PCIe 扩展插槽中分散放置多个相对便宜的通用 64GB RDIMM 来降低购买成本。
有实证数据显示,构建相同可用内存的设备成本最多可降低 50%。
运营成本也随之改变。
CXL 物理控制器内置了微秒级检测流量密度的电源管理电路。
当数据流减缓时,链路会切换到超低功耗状态。
当下一个数据请求到来时,会在纳秒级恢复。
三星电子量产数据显示,该机制可将内存模块的空闲待机功耗降低 50% 以上。
更进一步,可以与内联硬件压缩技术结合。
将 ZeroPoint Technologies 的 DenseMem 压缩 IP 与 CXL 3.1 控制器封装在同一块芯片 (Die) 上,所有数据压缩和解压缩都由硬件加速器自动完成。
在不消耗 CPU 运算资源的情况下,将物理内存中存储的数据压缩高达 3:1 的比例。
结果听起来有些矛盾。
在不增加内存芯片物理数量的情况下,操作系统识别的逻辑内存大小变为三倍。
实际通过总线传输的数据包大小减小,传输功耗也进一步降低。
设备投资成本、运营成本、电力成本同时降低。这就是 CXL 不仅仅是性能规范的原因。
4. 三星电子率先走过的路
在 CXL 从学术规范讨论走向实际产品过程中,有一个先行者。
三星电子于 2021 年 5 月,开发了业界首款基于 CXL 1.1 的 CMM-D (CXL Memory Module-DRAM)。
当时,大多数服务器厂商仍将 CXL 归类为“2025 年后的技术”。三星在那之前就已经制造出了实物。
2022 年 5 月,原生支持 CXL 2.0 规范的第二代 CMM-D 2.0 进入量产阶段。
该产品在单槽位支持高达 256GB 容量,并稳定提供 36GB/s 的有效带宽。
下一步是 CMM-D 3.1。
基于 PCIe 6.0 接口,单模块提供 1TB 内存空间,带宽高达 72GB/s。
这些数字的意义不仅仅是数字。
这意味着单个 CXL 插槽开始超越现有 CPU 插槽直连内存通道的总带宽限制。
SK 海力士选择了另一条道路。
2026 年 3 月,在“全球闪存峰会”上公开了下一代 CMM-DDR5 模块实物,同时开源了 HMSDK (Heterogeneous Memory Software Development Kit)。这表明他们不仅卖硬件。-> 而是首先建立一个生态系统,让开发者可以通过软件直接控制异构内存池。
美光 (Micron) 通过其 2023 年开发的兼容 CXL 2.0 的 CZ120 系列,通过了实际数据中心验证周期,积累了商业可靠性数据。
三家公司正从不同方向攀登同一座山。
英伟达宣布,其计划于 2026 年底推出的 Vera CPU 将标配 CXL 3.1。
英特尔第五代至强 (Xeon) 和 AMD EPYC Turin 已支持 CXL 2.0 及以上版本。
谷歌正在全球数据中心积极部署 CXL 物理互连。
市场已经走过了等待规范的阶段,进入了规范创造市场的阶段。
据行业估计,到 2028 年,全球 CXL 市场预计将增长至约 158 亿美元。2024 年的估计值为 12 亿美元。
四年内增长 13 倍。
5. 韩国为何能在这场战斗中获胜
CXL 这一新规范正在重绘技术地图。
原有的优势变得不那么有利,而原有的不可能的进入变得可能。
韩国半导体产业长期存在结构不平衡的问题。
虽然拥有世界顶级的 DRAM 制造能力,但在核心设计知识产权 (IP)、高附加值的 OSAT (外包半导体组装测试) 领域,以及精密检测设备领域,韩国企业很难进入全球前十。
这是一个擅长制造 DRAM 的国家,但并非主导半导体生态系统的国家。
CXL 正在撼动这种结构。
新的互连标准需要新的芯片。
交换机芯片、控制器芯片、PHY IP、检测设备、高层数基板。在这些领域,韩国企业异常地占据了领先地位。
Panmnesia:交换机芯片的世界第一
由 KAIST 研究人员创立的 Panmnesia,
率先开发了全球首款完全执行端口路由的 CXL 3.2 全规格单交换机芯片组。
这款名为“PCIe 6.4-CXL 3.2 Fusion Switch”的芯片,在一个物理半导体内部连接 CPU、GPU、加速器、共享内存设备,构建成可组合的共享系统。
其差异化之处在于,将交换机跳数 (Hop) 产生的延迟开销降低到十位数纳秒 (ns) 以下。并在交换机内部内置了硬件加速电路,处理生成式 AI 推理过程中的瓶颈之一 KV (键值) 缓存。
获得了 CES 2025 最佳创新奖,并通过 A 轮融资筹集了 800 亿韩元,累计企业估值超过 3400 亿韩元。
正在与全球大型科技公司进行实证评估。
MetisX:在内存中计算的芯片
来自三星电子和 SK 海力士架构设计总部的成员组成的 MetisX,提出了一个不同的问题。
与其将数据 가져到 CPU 或 GPU 进行计算,不如直接在内存中计算,会怎么样?
他们利用 CXL 3.0 架构实现了这一被称为“计算内存 (Computational Memory)”的概念。
在 CXL 内存模块的控制器芯片组中集成了向量运算引擎和数据压缩/过滤电路。
AI 向量相似度计算或 RAG (检索增强生成) 工作所需的大规模数据过滤在内存设备内部完成,只有处理后的结果才传输给处理器。
根本上减少了总线往返的数据量。
-> 处理器发热降低,数据中心冷却成本也随之降低。
已获得 A 轮融资 600 亿韩元,并与全球云服务公司进行联合工程。
Dinotisia:专用于向量数据库的半导体
生成式 AI 中,RAG (检索增强生成) 和长期记忆实现的关键是向量数据库。
即文本、图像、语音转换为高维数值向量并计算相似度的过程。
Dinotisia 正在将专门处理此任务的VDPU (Vector Data Processing Unit) 设计并商业化其在云端控制的“Seahorse”平台。
将 VDPU 与 CXL 互连逻辑完全对齐,并向跨国 SoC 制造商和主板设计公司进行 IP 授权销售。
OpenEdge Technology:靠 IP 获胜的公司
不直接销售芯片,也能受益于半导体生态系统的方法是销售设计资产 (IP)。
OpenEdge Technology 是一家向全球市场提供片上互连 IP、内存控制器 IP、PHY IP 的上市 IP 专业公司。
他们拥有国内外观测到 CXL 控制器芯片组的生产所必需的DDR5 和 LPDDR5X IP。
每制造出一颗芯片,就会产生版税。预计 2025-2026 年将是其临界点。
6. 检验者控制质量
制造芯片同样重要的一点是确认制造出的芯片是否正常工作。
每当出现新规范时,检测设备市场也会随之开启。
现有的 DDR5 检测设备无法正确检测 CXL 模块。协议不同,速度不同,要求的测试条件也不同。
Neosem 是率先填补这一空白的公司。
2023 年,他们率先商业化了业界首个 CXL 1.1 标准检测平台。
他们并未止步于此,完成了 CXL 2.0 规范对应高速高温老化 (Burn-in) 检测设备的国产化,并独家向三星电子交付了首批商用设备。
Neosem 的检测方式之所以与众不同,在于其工作条件的极端性。
在内存实际运行时,将腔室内部温度升至极高再降至极低,进行连续的热应力测试,并实时追踪缺陷。
在常温下正常工作的芯片,在温度变化时可能会出现错误。这些错误会在出厂前被捕捉。
全球半导体检测市场一直被美国的 Teradyne 和日本的 Advantest 占据。Neosem 在 CXL 这一新规范下,成功地比这两个巨头更早地交付了量产检测设备。
Exicon 专注于开发采用三星电子晶圆厂 4nm 工艺的 CXL 3.0 专用内存模块和协议分析设备。
他们基于 PCIe 接口分析专利,并在硅谷设立分公司,以实现客户多元化。
Fadu 正在对兼容 CXL 物理协议的控制器芯片组和基于 FPGA 的概念验证卡进行现场测试。
Qualitas Semiconductor 已经获得了能够以 64GT/s 以上速度、无物理噪声传输的 PCIe 6.0 和 CXL 3.1 兼容 PHY 设计资产,并正在与全球系统半导体公司进行早期验证。
7. 没有基板,芯片就无处安放
半导体芯片本身并非成品。
只有安放在基板 (Substrate) 这个基础上,才能正常工作。
CXL 的高速信号对基板提出了特殊要求。要使 64GT/s 以上的高速信号无失真地通过,基板材料和堆叠设计必须不同于普通服务器基板。
TLB (Til-B) 是率先掌握 CXL 模块用高频无损信号传输层设计和下一代低功耗 LPCAMM 专用模块基板工艺技术的公司。
为应对全球需求激增,他们提前启动了越南第二工厂的运营,并通过 AI 控制的自动化机器人实现了个位数 ppm 的良率。
Daeduck Electronics 是一家全球顶级的封装板制造商,已完成 FC-BGA (Flip-Chip Ball Grid Array) 大型封装基板的扩建投资。
在随着微细化凸点连接密度和多层化趋势导致产品单价跃升的结构中,技术壁垒越高,其受益越大。
8. 真正的战斗从这里开始
有人可能认为技术已经成熟。有芯片,有交换机,有检测设备,有基板。标准也已确定。
那么,为什么 CXL 还没有成为服务器市场的主流?
原因有很多,其中一个意想不到。软件设计工具的成本。
Synopsys 或 Cadence 等跨国公司垄断的 EDA (Electronic Design Automation) 软件是半导体设计的必备工具。
许可证费用每年高达数亿至数十亿韩元。
即使 Panmnesia、MetisX、Dinotisia 这样的初创公司开发出了世界领先的技术,但要设计下一代芯片,仍需要继续使用这些软件。对于在产生有意义的量产销售额之前就存在的初创公司来说,这笔费用是财务上的扼杀。
这不是技术问题。是结构性问题。
这就是为什么科学技术信息通信部和中小风险企业部现在应该做的事情,不是按比例分配国家补贴。
大幅提高 EDA 软件采购成本的税收抵免上限,
并常设运营长期租赁支持担保基金。
需要建立制度性保障,将三星电子·SK 海力士晶圆厂的 MPW (多项目晶圆) 插槽优先分配给韩国的优秀无晶圆厂公司。
否则,那些开发出世界领先技术的团队,在量产阶段就会被外国资本收购,或者被外国无晶圆厂公司吞并。
人类如何设计 AI 基础设施,正在书写新的规则。
韩国企业正坐在编写这些规则的桌边。这是第一次。
9. 内存墙的彼岸
曾提到过 30 年前提出的问题。内存墙。
克服这堵墙的尝试从未停止。制造更快的 DRAM,连接更多的通道,堆叠更高密度的芯片。但墙并没有消失。
因为架构本身制造了这堵墙。
CXL 是改变架构的尝试。它打破了内存和处理器之间的界限,创建了读写可以同时流动的物理线路,并将被固定节点束缚而闲置的内存变成了共享资源。
当这种变化完成时,会带来怎样的世界?
不是更快的 AI。而是用更少的电力实现更多 AI 的世界。
如果当前 AI 基础设施扩展的真正障碍不是土地而是电网——而其中相当一部分电力浪费来自于数据等待的时间——
CXL 解决的问题不是技术问题。是能源问题。
如果能更有效地移动数据,就能以更低的成本将 AI 提供给更多人。
现在你使用的 AI 服务的响应速度和订阅费的一部分,来源于内存总线的转向延迟。
那么,还剩下什么问题?
30 年来我们一直朝着“更强的处理器”前进。但墙总是在别处。下一个墙在哪里?我们又需要多久才能发现它?
参考资料
- CXL Consortium Technical Working Group. CXL 2.0 & 3.0 Specification Standard White Paper (Compute Express Link Specification). Compute Express Link Official Technical Document Repository. 2022–2024.
- KAIST Next-Generation Memory Systems Joint Research Center. Performance Analysis of Memory Hierarchy and CXL Interconnect for Next-Generation High-Bandwidth Computing. Journal of the Korean Institute of Electrical Engineers. 2023.
- Samsung Electronics Memory Business Unit New Business Strategy Team. CMM-D Product Family Technology Roadmap and Value Assessment for Overcoming Data Center Memory Bottlenecks. Samsung Semiconductor Technical White Paper Series. 2022–2024.
- ZeroPoint Technologies; Rambus Joint Analysis Research Team. Total Cost of Ownership (TCO) and Power Efficiency Model Analysis in CXL Memory Pooling Environment. IEEE Computer Architecture Letters. 2024.
- Roh, Geun-chang et al. Analysis Report on Korean System Semiconductor Companies’ Preemption of Heterogeneous Computing Paradigm. Hyundai Motor Securities Industry Analysis Report. 2024–2025.
- SK Hynix Solution Development Center Software Research Lab. Technical Trends in HMSDK and Open-Source Control Stacks for Heterogeneous Architectures. SK Hynix Technical Seminar Presentation Materials. 2026.
- Wulf, Wm. A.; McKee, Sally A. Hitting the Memory Wall: Implications of the Obvious. ACM SIGARCH Computer Architecture News. 1995.
- NVIDIA Corporation. Vera CPU Architecture Overview and CXL Integration Roadmap. NVIDIA GTC Technical Proceedings. 2025.
- Intel Corporation. 5th Gen Intel Xeon Processor Platform: CXL 2.0 Implementation Guide. Intel Developer Zone Technical Documentation. 2024.
- AMD Corporation. EPYC Turin Architecture: Memory Subsystem and CXL Controller Design. AMD Developer Resources. 2024.
- Google Infrastructure. Hyperscale Memory Disaggregation with CXL: Early Deployment Data from Production Workloads. Google Research Technical Report. 2025.
- Rambus Inc. PCIe 6.0 Physical Layer Controller for CXL 3.1: Performance and Power Characterization. Rambus Product Technical Documentation. 2024.
- Panmnesia. PCIe 6.4-CXL 3.2 Fusion Switch: Low-Latency Composable Memory Architecture. CES 2025 Innovation Award Technical Submission. 2025.
- MetisX. Computational Memory Architecture on CXL 3.0: Near-Memory Processing for AI Vector Workloads. Hot Chips Symposium Proceedings. 2025.
- Neosem. CXL 2.0 Module Burn-in Test Solution: Field Validation Report for Next-Generation Memory Qualification. Semiconductor Equipment Technology Conference Presentation Materials. 2024.