AI 新大脑:NPU 的崛起
CPU、GPU 大家都知道,NPU 是谁?
谈到电脑的“大脑”,我们常想到 CPU(中央处理器)。我们也知道,处理炫酷的画面需要 GPU(图形处理器)。但最近,随着 AI 时代的到来,“NPU”这个词越来越常听到。这与 CPU、GPU 不同的新处理器是什么呢?
NPU 是“神经网络处理单元(Neural Processing Unit)”的缩写。顾名思义,它是为运行 人工智能(AI) 和 深度学习 算法而生的 专用硬件。为了理解它的作用,我们可以想象一个办公室团队。
- CPU (Central Processing Unit): 团队里的“总管”。擅长按顺序处理各种复杂的指令。它负责管理电脑系统,安排任务的优先级,扮演着核心指挥的角色。但如果让它同时处理成千上万的简单重复任务,它就会力不从心。
- GPU (Graphics Processing Unit): 最初是为了图形处理而聘用的“大规模工队”。它有数千个核心,擅长 同时并行处理 简单的计算。这对于需要计算每一个像素的图形任务非常合适。后来人们发现,这种并行处理能力与 AI 所需的大规模矩阵乘法运算很相似,于是它被调入 AI 运算的关键岗位。
- NPU (Neural Processing Unit): 新加入团队的“AI 专家分析师”。它不做其他通用工作。它的设计就是为了将所有精力集中在 AI 的神经网络计算这一项任务上。因为它生来就有特定目的,所以在 AI 任务上,它的处理速度和效率比总管 (CPU) 或大规模工队 (GPU) 都高得多。
为什么原来的大脑不够用了?
那么,为什么我们只靠强大的 GPU 工队还不够呢?AI 时代 的到来,从根本上改变了我们需要处理的数据类型和数量。过去的数据主要以文本为主,而现在,图像和视频数据如洪水般涌来。需要实时分析和判断这些海量数据的 AI 应用急剧增加。
深度学习 算法的核心在于同时、重复地执行大量的矩阵乘法和卷积等运算。GPU 由于其并行处理能力,在这方面比 CPU 做得更好,但也有根本性的局限。GPU 最初是为图形处理设计的通用芯片,所以 它并不是 AI 计算的最优结构。这导致了两个主要问题:
第一,巨大的功耗。用于 AI 模型训练和运行的数据中心需要成千上万个 GPU,由此产生的电力消耗和发热量是惊人的。它们甚至得了“电老虎”的绰号。这导致数据中心运营成本急剧上升。第二,对于智能手机或物联网设备等电池供电设备,直接搭载 GPU 存在困难,原因在于其高功耗和发热问题。
最终,AI 时代 所需的不仅仅是快的运算速度。以更少的能量处理更多运算的“能效比(性能与功耗的比值)”成为了核心课题。这不仅仅是技术性能提升的问题,更关系到 AI 技术的可持续性和经济性。为了将 AI 从数据中心的特权扩展到我们手中的设备,需要新的方法。
模仿大脑的处理器诞生了
这种时代需求找到了答案,那就是 NPU。NPU 的最大特点是 模仿了人类大脑的工作方式,即模仿了神经网络的结构。人脑通过海量神经元及其连接(突触)并行同步地处理信息。NPU 模仿了这种结构,设计成在海量小型处理单元中同时执行 AI 计算的核心任务,如矩阵乘法。
这种“模仿大脑”的结构使得 NPU 在 AI 计算方面比 GPU 具有更高的效率。它去除了不必要的功能,只专注于 AI 计算,因此在执行相同任务时,耗电量更少,速度更快。
这种特性极大地拓展了 NPU 的应用范围。智能手机上的实时人脸识别、照片主体区分、语音转文本等“设备端 AI 功能”(On-device AI)在 NPU 的帮助下成为可能。此外,在数据中心,它作为生成大型语言模型(LLM)响应的“推理”过程的成本效益更高的替代方案受到关注。在自动驾驶汽车中,它充当着实时感知和判断周围环境的核心大脑。
总而言之,NPU 的出现标志着 AI 硬件范式的转变。它标志着从“只要快就好”的时代,转变为“如何高效地快”的时代。这是 AI 技术 从数据中心渗透到我们日常所有设备中的关键驱动力。
AI 芯片战争的序幕:全球科技巨头的 NPU 战略
为了抢占 AI 这个巨大的市场,全球科技巨头们的竞争已经演变成以硬件,特别是 NPU 为核心的“芯片战争”。这场战争不仅仅是制造更快的芯片的竞争。每个公司都根据自己的优势和愿景,构建不同的战略领地,形成多方面的战线。我们将通过 英伟达 (Nvidia)、谷歌 (Google)、苹果 (Apple) 这三大巨头的动向,深入了解这场战争的格局。
皇帝的固守:英伟达的 GPU 帝国与软件护城河
如果说 AI 芯片市场 的绝对霸主是谁,那无疑是 英伟达。英伟达 占据了 AI 训练 所用数据中心 GPU 市场的 80% 到 90%,建立了一个垄断性的帝国。像 Blackwell 这样的最新架构,展现出令竞争对手难以企及的强大性能。
但 英伟达 的真正力量并不仅仅在于硬件本身。巩固其帝国的是一条名为“CUDA”的深邃而广阔的软件护城河。CUDA 是英伟达的并行计算平台和编程模型,于 2007 年首次推出。开发者可以通过 CUDA 最大限度地利用 英伟达 GPU 的性能来开发 AI 模型。过去 15 年以上积累的 CUDA 生态系统 包括庞大的库、优化的工具以及众多的开发者社区。因此,AI 开发者很难转向其他公司的芯片。因为根据新的硬件重新开发所有软件和代码,需要巨大的成本和时间。这正是竞争对手最难超越 英伟达 的地方。
英伟达 并不满足于此,正致力于从简单的芯片制造商向“全栈 (Full-stack) AI 平台企业”进化。他们推出了在虚拟世界中训练和模拟 AI 的“Omniverse”平台,用于对话式 AI 开发的“NeMo”框架,甚至还推出了包含数万个 GPU 的整个数据中心机架作为系统的销售策略。他们的愿景正转向“物理 AI (Physical AI)”和“智能体 AI (Agentic AI)”。这意味着实现与机器人、自动驾驶汽车等现实世界交互的 AI,这是他们将 AI 的应用范围扩展到数字世界之外的雄心勃勃的计划。
挑战者的奇袭:谷歌的 TPU 与“推理”市场攻势
谷歌 (Google) 是挑战 英伟达 帝国最强有力的竞争者之一。谷歌 在运营搜索、相册、翻译等海量 AI 服务 时,需要处理天文数字般的运算量。完全依赖 英伟达 GPU 在成本和效率方面都负担沉重。因此,谷歌 决定自主研发秘密武器:TPU(张量处理单元,Tensor Processing Unit)。
TPU 大约在 2015 年诞生于 谷歌 内部,是为 谷歌 的 AI 框架“TensorFlow”高度优化的版本。在与李世石九段对弈的 AlphaGo 的“推理”过程中,也使用了 TPU。TPU 最显著的特点是它极度优化于 AI 模型制作的“训练(Training)”阶段之后的,即利用已训练好的模型得出结果的“推理(Inference)”阶段。
如果把 AI 市场比作赛车比赛,“训练”是设计和调校赛车以获得最佳性能的过程,而“推理”则是驾驶完成的赛车在实际赛道上不断奔跑的过程。英伟达 GPU 在调校过程中表现出压倒性的性能,而 谷歌 TPU 则像是实际驾驶中具有最佳燃油效率和效率的“超级优化火箭”。
谷歌 TPU 历经几代进化。最近,继第六代“Trillium”之后,他们发布了进一步优化推理性能的第七代“Ironwood”,展现了其技术实力。Ironwood 比前一代在**每瓦性能(能效比)**上提高了 2 倍,这清晰地表明了 谷歌 在“推理市场”上加强其主导地位的战略。谷歌 并没有正面攻击 英伟达 占领的“训练”市场,而是试图通过侧翼攻击战略,攻占未来将更加庞大的“推理”市场,以此改变 AI 芯片战争 的格局。
设备端霸主:苹果的神经网络引擎与隐私堡垒
苹果 (Apple) 的战略将重点放在我们手中的设备上,而不是数据中心。他们的目标是提供强大的 AI 体验,而无需依赖云端,同时彻底保护用户的隐私。这一战略的核心正是“苹果神经网络引擎(Apple Neural Engine, ANE)”。
ANE 于 2017 年首次出现在 iPhone X 的 A11 仿生芯片中。此后,它已成为所有 iPhone、iPad 以及搭载 M 系列芯片的 Mac 的核心组件,在 苹果生态系统 中占据了重要地位。
ANE 的性能进步令人惊叹。2017 年 A11 芯片的 ANE 每秒可执行 6000 亿次(0.6 TOPS)运算,而到了 2020 年的 M1 芯片,则达到了 11 TOPS;2023 年的 M3 芯片为 18 TOPS;而 2024 年最新的 M4 芯片更是拥有高达 38 TOPS 的运算能力。这仅仅 7 年时间,性能就提升了 60 倍以上。
苹果 之所以如此执着于提高 ANE 的性能,原因很明确:通过在设备内部处理所有 AI 运算 的“设备端 AI”(On-device AI),同时实现最佳用户体验和隐私保护。由于不将敏感的个人信息发送到外部服务器,因此安全性高,并且可以在没有网络连接的情况下快速稳定地运行。我们日常使用的苹果 设备上令人惊叹的功能背后,都有 ANE 的身影。
- 安全与认证: Face ID,通过 3D 面部识别解锁。
- 相机: 智能 HDR,即使在逆光下也能保留人物和背景的细节;夜间模式,在黑暗中也能拍摄明亮清晰的照片。
- 生产力: 实况文本(Live Text),可以识别照片中的文字并进行复制;实时通话翻译。
- AI 助手: 离线工作的 Siri,以及最近发布的 Apple Intelligence。
苹果 通过“Core ML”框架,支持开发者轻松地将 ANE 的强大性能应用到他们的应用程序中,并构建了一个自己坚实的“设备端 AI 生态系统”。
由此可见,全球 AI 芯片战争 并非单一战线,而是在数据中心训练(英伟达)、数据中心推理(谷歌)、设备端体验(苹果) 这三个主要战线上,以不同的方式展开。这种市场的细分,为后来者——韩国企业——打开了重要的机遇之窗。
全球 AI 芯片巨头:战略对比
| 公司 | 代表芯片/架构 | 核心战略优势 |
|---|---|---|
| 英伟达 | Blackwell GPU | CUDA 软件生态系统 & 全栈平台 |
| 谷歌 | Ironwood TPU | 针对自家服务(搜索、Gemini)的极度效率,与谷歌云集成 |
| 苹果 | M4 神经网络引擎 | 软硬件整合,隐私,能效 |
对 英伟达 统治地位的最大威胁,讽刺的是,并非更优秀的芯片,而是其最大的客户纷纷自行研发芯片。谷歌、亚马逊、微软、Meta 等超大规模数据中心运营商,正在减少对昂贵 英伟达 GPU 的依赖,开发完全针对其自身服务优化的定制 NPU(ASIC)。这本身就证明了 NPU 的基本价值——针对特定目的优化的硬件 比通用硬件更有效,这预示着 AI 硬件市场的未来将更加多元化。
Here’s the Markdown content translated into clear, everyday Simplified Chinese:
K-半导体挑战“英伟达霸权”:韩国NPU研发现状
在全球科技巨头纷纷拓展AI芯片版图之际,韩国半导体产业也正积极迎战。韩国不满足于内存半导体领域的领先地位,正努力在被誉为“系统半导体皇冠上的明珠”的AI芯片市场寻找新的增长点。韩国的策略不是直接挑战英伟达的核心,而是采取一种巧妙的“夹击战术”,深入挖掘数据中心的“推理”市场和“终端侧边缘”市场。我们将详细看看,从三星、SK等大型企业到获得巨额投资的初创公司,韩国NPU梦之队的现状。
巨头的协同作战:三星电子与SK海力士
三星的终端侧强者:Exynos NPU
三星电子长期以来一直在开发自家的移动AP(应用处理器)“Exynos”系列。凭借这些经验,他们很早就开始专注于开发处理移动设备内部AI运算的NPU。早在2018年发布的“Exynos 9820”中,其内置的NPU就将AI运算能力比前代提升了高达7倍,预示着终端侧AI时代的到来。
而近期,三星NPU技术实力的巅峰之作便是“Exynos 2400”。这款芯片被用于Galaxy S24系列,其NPU性能相比前代(Exynos 2200)提升了约14.7倍,取得了惊人的进步。如此强大的NPU性能直接转化为消费者能感受到的功能。Galaxy S24系列主打的“Galaxy AI”核心功能,例如无需网络连接即可实时通话翻译,或仅凭文字描述即可生成图像,都得益于Exynos 2400的NPU。这是NPU技术如何成为旗舰产品核心竞争力的最具体例证。
SK的战略转型:从Sapeon到Rebellions联盟
SK集团也早已涉足AI芯片市场。由SK Telecom孵化的子公司“Sapeon”专注于开发数据中心推理用NPU。2020年,他们推出了韩国首个数据中心AI芯片“X220”,随后又发布了大幅提升性能的“X330”。X330实现了比前代4倍以上的运算性能和2倍以上的能效,其技术实力获得了认可,甚至被视为英伟达中端推理卡L40S的竞争对手。此外,它还通过了全球服务器制造商超微(Supermicro)的服务器兼容性认证,提高了商业化前景。
然而,SK有着更大的蓝图。他们决定避免韩国AI芯片初创公司之间过度竞争,而是要打造一个能在全球市场竞争的“国家队”。2024年,SK宣布将Sapeon与另一家NPU强企“Rebellions”合并。这是韩国AI芯片历史上具有里程碑意义的战略选择,旨在整合分散的技术和资源,组建对抗英伟达的联盟军。
无畏的挑战者:韩国的三大无厂半导体公司
韩国NPU生态系统的另一支力量,是掌握创新技术的**无厂半导体(Fabless,专注于芯片设计)**初创公司。在大型企业的支持和投资下,它们在各自领域取得了令人瞩目的成就。
Rebellions:背靠巨额投资的新星
Rebellions在成立仅三年多时间里就获得了累计2800亿韩元的投资,成为市场备受瞩目的初创公司。他们的主打产品是数据中心推理用NPU“ATOM”。Rebellions最大的成就是成功地将“ATOM”应用于实际的商业服务。KT作为Rebellions的战略投资者和核心合作伙伴,在其云数据中心引入ATOM,成功商用了韩国首个国产NPU云服务。ATOM还被用于KT的超大AI模型“믿음(Mi:dm)”的轻量化版本,证明了国产NPU可以充当实际AI服务的“大脑”。Rebellions的下一个目标是更大的市场。他们正与三星电子合作开发下一代AI芯片“REBEL”。这款芯片旨在直接竞争ChatGPT等大型语言模型(LLM)市场,是Rebellions进军全球市场的关键武器。
FuriosaAI:以性能取胜的技术型挑战者
FuriosaAI是另一家凭借压倒性性能和效率挑战英伟达的NPU强企。该公司成立于2017年,在推出了第一代芯片“Warboy”之后,最近又凭借第二代芯片“Renegade”震惊了市场。Renegade能在180W的低功耗下实现512 TOPS的高算力,在功耗效率上远超竞争对手的GPU。这项技术实力甚至让他们收到了Facebook母公司Meta的收购提议,但被拒绝了。FuriosaAI技术实力的关键验证来自于与LG AI研究院的合作。LG在测试其超大AI模型“Exaone”时,选择使用FuriosaAI的Renegade而非昂贵的英伟达GPU,并取得了显著的性能提升。这是一个标志性事件,表明国产NPU可以成为大型企业核心LLM基础设施中GPU的实际替代方案。此外,他们还为AI初创公司Upstage的OCR(光学字符识别)解决方案提供芯片,不断创造商业化案例。
DeepX:深耕边缘AI市场的细分领域强者
如果说Rebellions和FuriosaAI主攻数据中心市场,那么DeepX则瞄准了完全不同的市场,即超低功耗“终端侧(Edge) AI市场”。终端侧AI是指在智能手机、家电、机器人、CCTV等网络边缘设备上直接处理AI运算的技术。DeepX的核心竞争力在于为各种边缘设备提供优化的NPU产品组合。他们为物理安防、智能工厂、机器人、智能出行等不同应用领域提供定制化的AI芯片。此外,他们不仅仅销售芯片,还提供编译器、运行时、SDK(软件开发工具包)等“全栈软件”,让客户能够轻松开发和运行AI模型,从而提升客户的开发便利性。DeepX在CES 2024上获得三项创新奖,其技术实力获得了全球认可,并在终端侧AI这一特定领域建立了独特的竞争优势。
韩国的NPU开发正是如此,大型企业和初创公司基于各自的优势和角色,形成了紧密的生态系统。无厂初创公司进行创新设计,三星电子或SK海力士提供代工生产(Foundry)和HBM(高带宽内存),KT或LG等大型企业则为初期市场打开通路,形成了一种共赢的模式。这种独特的“韩国NPU联盟”正在成为挑战英伟达霸权的、最现实也最有力的战略。
韩国NPU挑战者:竞争格局
| 公司 | 代表性产品 | 主要合作伙伴/赞助商 |
|---|---|---|
| 三星LSI | Exynos 2400 | 三星电子 MX部门 (Galaxy) |
| Rebellions (已整合Sapeon) | ATOM / REBEL / X330 | KT, SK Telecom, 三星电子, IBM |
| FuriosaAI | Renegade | LG, Upstage, Naver |
| DeepX | DX-M1 & 产品组合 | 各类行业客户 |
奔向未来:NPU市场前景与韩国的挑战
AI芯片市场正迎来爆炸性增长的序幕。未来的竞争对K-半导体来说,既是巨大的机遇,也是严峻的考验。市场的潜力有多大?在这个激烈的竞争中,韩国又需要克服哪些挑战?让我们来展望一下。
数千亿美元的机遇:NPU市场展望
市场分析机构对AI芯片市场的未来预测非常乐观。到2030年代初期,全球AI芯片市场规模预计将增长至数千亿美元。特别是NPU和终端侧AI市场,预计将保持年均20%至35%的高增长率,成为最热门的战场。
这种增长将加速蔓延到智能手机、PC之外的汽车、机器人、医疗设备、智能家居等我们生活的方方面面。随着对能够在设备本身快速安全运行而无需依赖云端的AI的需求激增,低功耗、高能效的NPU的重要性将愈发凸显。韩国NPU企业所关注的“推理”和“终端侧”市场,正是这一增长的核心。
真正的战场:从硬件走向生态系统的竞争
然而,要收获未来市场的果实,光是制造出性能优越的芯片还远远不够。因为AI芯片战争的本质并非硬件规格的竞争,而是“软件生态系统”的争夺。这正是英伟达的霸权如此稳固,以及所有后来者面临的巨大挑战。
如前所述,英伟达的CUDA平台是其15年以上积累的软件资产。全球无数开发者已经熟悉CUDA环境,并在此基础上开发了海量的AI模型和应用。无论出现多么出色的NPU,如果缺乏易于开发者使用的软件工具(编译器、库、SDK等),它将毫无用处。开发者不愿意为了新的硬件而从头开始学习所有开发过程。
这就是为什么所有NPU企业都拼命开发自有软件栈的原因。DeepX在其招聘信息中强调编译器、运行时等全栈软件开发人员,Rebellions则以与PyTorch、TensorFlow等标准框架的完美兼容性为卖点,这些都是为了在生态系统战争中生存下来的拼搏。
韩国政府也清楚地认识到这一问题的重要性。科学技术信息通信部主导的“K-Cloud项目”正是国家层面对此现实的战略应对。该项目计划到2030年投入超过4000亿韩元的预算,以国产NPU为基础,同时开发数据中心的硬件和软件基础设施。这不仅仅是支持个别企业,而是试图构建一个让国产NPU能够顺畅运行的庞大软件生态系统,即“韩国版CUDA”。该项目的成功与否,将是决定国内NPU产业未来的关键因素。
韩国半导体产业的未来:挑战与机遇
韩国的 K-半导体要想成为全球 NPU 市场的领导者,还有很长的路要走。但同时,也存在着明确的机会。
挑战
- 软件差距: 英伟达(Nvidia)数十年积累的 CUDA 生态系统依然强大。要追赶上来,需要持续巨额的投入。
- 规模与资金: 韩国初创公司在研发(R&D)上的投入,甚至不到英伟达的 1%。要参与全球竞争,迫切需要更大的资本和人才支持。
- 争取全球客户: 除了政府项目和国内大公司的合作,最终能否在生存和发展中取得成功,取决于能否打入要求严苛的全球科技巨头和数据中心市场,并赢得大规模订单。
机遇
- 抓住细分市场: 避开英伟达占主导地位的“学习”市场,转而专注于 NPU 具有结构性优势的“推理”和“边缘”市场,这是一个非常有效的战略。这样可以在这些市场建立技术优势,扩大市场份额。
- 国内生态协同: 韩国拥有世界顶级的内存(HBM)技术和代工(foundry)基础设施,这对 NPU 芯片设计公司来说是巨大的机会。HBM 制造商 SK 海力士、三星电子与 NPU 设计公司紧密合作,能够为下一代芯片开发带来强大的协同效应。
- 国家支持: “K-Cloud”等政府的强力支持政策,对初期市场开拓和技术研发加速具有重要作用。
韩国 NPU 公司的成功,不仅关乎国家产业发展,对全球 AI 产业也意义重大。目前,AI 产业过度依赖英伟达一家供应商存在风险。如果韩国的 Rebellions-Sapeon 联合体或 FuriosaAI 等公司能在全球数据中心市场成为有意义的替代选择,这将是 GPU 主导的 AI 硬件市场向 NPU 多元化转变的强烈信号。
这标志着围绕 AI 基础设施的未来,一场巨大的范式转变即将开始,而韩国的挑战者们正站在历史的中心。全球都在关注,像大脑一样运转的 NPU 将开启怎样的 AI 新时代,K-半导体又将扮演怎样的角色。