posts / 科学

人工智能时代的幕后英雄NPU:类脑芯片,全球巨头与韩国挑战者

phoue

3 min read --

AI 新大脑:NPU 的崛起

CPU、GPU 大家都知道,NPU 是谁?

谈到电脑的“大脑”,我们常想到 CPU(中央处理器)。我们也知道,处理炫酷的画面需要 GPU(图形处理器)。但最近,随着 AI 时代的到来,“NPU”这个词越来越常听到。这与 CPUGPU 不同的新处理器是什么呢?

NPU 是“神经网络处理单元(Neural Processing Unit)”的缩写。顾名思义,它是为运行 人工智能(AI)深度学习 算法而生的 专用硬件。为了理解它的作用,我们可以想象一个办公室团队。

  • CPU (Central Processing Unit): 团队里的“总管”。擅长按顺序处理各种复杂的指令。它负责管理电脑系统,安排任务的优先级,扮演着核心指挥的角色。但如果让它同时处理成千上万的简单重复任务,它就会力不从心。
  • GPU (Graphics Processing Unit): 最初是为了图形处理而聘用的“大规模工队”。它有数千个核心,擅长 同时并行处理 简单的计算。这对于需要计算每一个像素的图形任务非常合适。后来人们发现,这种并行处理能力与 AI 所需的大规模矩阵乘法运算很相似,于是它被调入 AI 运算的关键岗位。
  • NPU (Neural Processing Unit): 新加入团队的“AI 专家分析师”。它不做其他通用工作。它的设计就是为了将所有精力集中在 AI 的神经网络计算这一项任务上。因为它生来就有特定目的,所以在 AI 任务上,它的处理速度和效率比总管 (CPU) 或大规模工队 (GPU) 都高得多

如果说 CPU 是按顺序处理任务的总管,那么 GPU 就是大规模并行处理者,而 NPU 则是只负责 AI 计算的专家分析师。
如果说 CPU 是按顺序处理任务的总管,那么 GPU 就是大规模并行处理者,而 NPU 则是只负责 AI 计算的专家分析师。

为什么原来的大脑不够用了?

那么,为什么我们只靠强大的 GPU 工队还不够呢?AI 时代 的到来,从根本上改变了我们需要处理的数据类型和数量。过去的数据主要以文本为主,而现在,图像和视频数据如洪水般涌来。需要实时分析和判断这些海量数据的 AI 应用急剧增加。

深度学习 算法的核心在于同时、重复地执行大量的矩阵乘法和卷积等运算。GPU 由于其并行处理能力,在这方面比 CPU 做得更好,但也有根本性的局限。GPU 最初是为图形处理设计的通用芯片,所以 它并不是 AI 计算的最优结构。这导致了两个主要问题:

第一,巨大的功耗。用于 AI 模型训练和运行的数据中心需要成千上万个 GPU,由此产生的电力消耗和发热量是惊人的。它们甚至得了“电老虎”的绰号。这导致数据中心运营成本急剧上升。第二,对于智能手机或物联网设备等电池供电设备,直接搭载 GPU 存在困难,原因在于其高功耗和发热问题。

最终,AI 时代 所需的不仅仅是快的运算速度。以更少的能量处理更多运算的“能效比(性能与功耗的比值)”成为了核心课题。这不仅仅是技术性能提升的问题,更关系到 AI 技术的可持续性和经济性。为了将 AI 从数据中心的特权扩展到我们手中的设备,需要新的方法。

模仿大脑的处理器诞生了

这种时代需求找到了答案,那就是 NPUNPU 的最大特点是 模仿了人类大脑的工作方式,即模仿了神经网络的结构。人脑通过海量神经元及其连接(突触)并行同步地处理信息。NPU 模仿了这种结构,设计成在海量小型处理单元中同时执行 AI 计算的核心任务,如矩阵乘法。

这种“模仿大脑”的结构使得 NPUAI 计算方面比 GPU 具有更高的效率。它去除了不必要的功能,只专注于 AI 计算,因此在执行相同任务时,耗电量更少,速度更快

这种特性极大地拓展了 NPU 的应用范围。智能手机上的实时人脸识别、照片主体区分、语音转文本等“设备端 AI 功能”(On-device AI)在 NPU 的帮助下成为可能。此外,在数据中心,它作为生成大型语言模型(LLM)响应的“推理”过程的成本效益更高的替代方案受到关注。在自动驾驶汽车中,它充当着实时感知和判断周围环境的核心大脑。

总而言之,NPU 的出现标志着 AI 硬件范式的转变。它标志着从“只要快就好”的时代,转变为“如何高效地快”的时代。这是 AI 技术 从数据中心渗透到我们日常所有设备中的关键驱动力。

AI 芯片战争的序幕:全球科技巨头的 NPU 战略

为了抢占 AI 这个巨大的市场,全球科技巨头们的竞争已经演变成以硬件,特别是 NPU 为核心的“芯片战争”。这场战争不仅仅是制造更快的芯片的竞争。每个公司都根据自己的优势和愿景,构建不同的战略领地,形成多方面的战线。我们将通过 英伟达 (Nvidia)谷歌 (Google)苹果 (Apple) 这三大巨头的动向,深入了解这场战争的格局。

皇帝的固守:英伟达的 GPU 帝国与软件护城河

如果说 AI 芯片市场 的绝对霸主是谁,那无疑是 英伟达英伟达 占据了 AI 训练 所用数据中心 GPU 市场的 80% 到 90%,建立了一个垄断性的帝国。像 Blackwell 这样的最新架构,展现出令竞争对手难以企及的强大性能。

英伟达真正的力量不仅在于硬件,更在于其积累了 15 年以上的强大软件生态系统“CUDA”。
英伟达真正的力量不仅在于硬件,更在于其积累了 15 年以上的强大软件生态系统“CUDA”。

英伟达 的真正力量并不仅仅在于硬件本身。巩固其帝国的是一条名为“CUDA”的深邃而广阔的软件护城河CUDA 是英伟达的并行计算平台和编程模型,于 2007 年首次推出。开发者可以通过 CUDA 最大限度地利用 英伟达 GPU 的性能来开发 AI 模型。过去 15 年以上积累的 CUDA 生态系统 包括庞大的库、优化的工具以及众多的开发者社区。因此,AI 开发者很难转向其他公司的芯片。因为根据新的硬件重新开发所有软件和代码,需要巨大的成本和时间。这正是竞争对手最难超越 英伟达 的地方。

英伟达 并不满足于此,正致力于从简单的芯片制造商向“全栈 (Full-stack) AI 平台企业”进化。他们推出了在虚拟世界中训练和模拟 AI 的“Omniverse”平台,用于对话式 AI 开发的“NeMo”框架,甚至还推出了包含数万个 GPU 的整个数据中心机架作为系统的销售策略。他们的愿景正转向“物理 AI (Physical AI)”和“智能体 AI (Agentic AI)”。这意味着实现与机器人、自动驾驶汽车等现实世界交互的 AI,这是他们将 AI 的应用范围扩展到数字世界之外的雄心勃勃的计划。

挑战者的奇袭:谷歌的 TPU 与“推理”市场攻势

谷歌 (Google) 是挑战 英伟达 帝国最强有力的竞争者之一。谷歌 在运营搜索、相册、翻译等海量 AI 服务 时,需要处理天文数字般的运算量。完全依赖 英伟达 GPU 在成本和效率方面都负担沉重。因此,谷歌 决定自主研发秘密武器:TPU(张量处理单元,Tensor Processing Unit)

谷歌通过针对自家服务优化的 TPU,在“推理”市场走出了一条不同于英伟达的道路。
谷歌通过针对自家服务优化的 TPU,在“推理”市场走出了一条不同于英伟达的道路。

TPU 大约在 2015 年诞生于 谷歌 内部,是为 谷歌AI 框架“TensorFlow”高度优化的版本。在与李世石九段对弈的 AlphaGo 的“推理”过程中,也使用了 TPUTPU 最显著的特点是它极度优化于 AI 模型制作的“训练(Training)”阶段之后的,即利用已训练好的模型得出结果的“推理(Inference)”阶段。

如果把 AI 市场比作赛车比赛,“训练”是设计和调校赛车以获得最佳性能的过程,而“推理”则是驾驶完成的赛车在实际赛道上不断奔跑的过程。英伟达 GPU 在调校过程中表现出压倒性的性能,而 谷歌 TPU 则像是实际驾驶中具有最佳燃油效率和效率的“超级优化火箭”。

谷歌 TPU 历经几代进化。最近,继第六代“Trillium”之后,他们发布了进一步优化推理性能的第七代“Ironwood”,展现了其技术实力。Ironwood 比前一代在**每瓦性能(能效比)**上提高了 2 倍,这清晰地表明了 谷歌 在“推理市场”上加强其主导地位的战略。谷歌 并没有正面攻击 英伟达 占领的“训练”市场,而是试图通过侧翼攻击战略,攻占未来将更加庞大的“推理”市场,以此改变 AI 芯片战争 的格局。

设备端霸主:苹果的神经网络引擎与隐私堡垒

苹果 (Apple) 的战略将重点放在我们手中的设备上,而不是数据中心。他们的目标是提供强大的 AI 体验,而无需依赖云端,同时彻底保护用户的隐私。这一战略的核心正是“苹果神经网络引擎(Apple Neural Engine, ANE)”。

苹果通过 M 系列芯片中的神经网络引擎(ANE),同时追求强大的设备端 AI 和隐私保护。
苹果通过 M 系列芯片中的神经网络引擎(ANE),同时追求强大的设备端 AI 和隐私保护。

ANE 于 2017 年首次出现在 iPhone X 的 A11 仿生芯片中。此后,它已成为所有 iPhone、iPad 以及搭载 M 系列芯片的 Mac 的核心组件,在 苹果生态系统 中占据了重要地位。

ANE 的性能进步令人惊叹。2017 年 A11 芯片的 ANE 每秒可执行 6000 亿次(0.6 TOPS)运算,而到了 2020 年的 M1 芯片,则达到了 11 TOPS;2023 年的 M3 芯片为 18 TOPS;而 2024 年最新的 M4 芯片更是拥有高达 38 TOPS 的运算能力。这仅仅 7 年时间,性能就提升了 60 倍以上。

苹果 之所以如此执着于提高 ANE 的性能,原因很明确:通过在设备内部处理所有 AI 运算 的“设备端 AI”(On-device AI),同时实现最佳用户体验和隐私保护。由于不将敏感的个人信息发送到外部服务器,因此安全性高,并且可以在没有网络连接的情况下快速稳定地运行。我们日常使用的苹果 设备上令人惊叹的功能背后,都有 ANE 的身影。

  • 安全与认证: Face ID,通过 3D 面部识别解锁。
  • 相机: 智能 HDR,即使在逆光下也能保留人物和背景的细节;夜间模式,在黑暗中也能拍摄明亮清晰的照片。
  • 生产力: 实况文本(Live Text),可以识别照片中的文字并进行复制;实时通话翻译。
  • AI 助手: 离线工作的 Siri,以及最近发布的 Apple Intelligence

苹果 通过“Core ML”框架,支持开发者轻松地将 ANE 的强大性能应用到他们的应用程序中,并构建了一个自己坚实的“设备端 AI 生态系统”。

由此可见,全球 AI 芯片战争 并非单一战线,而是在数据中心训练(英伟达)、数据中心推理(谷歌)、设备端体验(苹果) 这三个主要战线上,以不同的方式展开。这种市场的细分,为后来者——韩国企业——打开了重要的机遇之窗。

全球 AI 芯片巨头:战略对比

公司 代表芯片/架构 核心战略优势
英伟达 Blackwell GPU CUDA 软件生态系统 & 全栈平台
谷歌 Ironwood TPU 针对自家服务(搜索、Gemini)的极度效率,与谷歌云集成
苹果 M4 神经网络引擎 软硬件整合隐私能效

英伟达 统治地位的最大威胁,讽刺的是,并非更优秀的芯片,而是其最大的客户纷纷自行研发芯片。谷歌、亚马逊、微软、Meta 等超大规模数据中心运营商,正在减少对昂贵 英伟达 GPU 的依赖,开发完全针对其自身服务优化的定制 NPU(ASIC)。这本身就证明了 NPU 的基本价值——针对特定目的优化的硬件 比通用硬件更有效,这预示着 AI 硬件市场的未来将更加多元化

Here’s the Markdown content translated into clear, everyday Simplified Chinese:

K-半导体挑战“英伟达霸权”:韩国NPU研发现状

在全球科技巨头纷纷拓展AI芯片版图之际,韩国半导体产业也正积极迎战。韩国不满足于内存半导体领域的领先地位,正努力在被誉为“系统半导体皇冠上的明珠”的AI芯片市场寻找新的增长点。韩国的策略不是直接挑战英伟达的核心,而是采取一种巧妙的“夹击战术”,深入挖掘数据中心的“推理”市场和“终端侧边缘”市场。我们将详细看看,从三星、SK等大型企业到获得巨额投资的初创公司,韩国NPU梦之队的现状。

巨头的协同作战:三星电子与SK海力士

三星的终端侧强者:Exynos NPU

三星电子长期以来一直在开发自家的移动AP(应用处理器)“Exynos”系列。凭借这些经验,他们很早就开始专注于开发处理移动设备内部AI运算NPU。早在2018年发布的“Exynos 9820”中,其内置的NPU就将AI运算能力比前代提升了高达7倍,预示着终端侧AI时代的到来。

而近期,三星NPU技术实力的巅峰之作便是“Exynos 2400”。这款芯片被用于Galaxy S24系列,其NPU性能相比前代(Exynos 2200)提升了约14.7倍,取得了惊人的进步。如此强大的NPU性能直接转化为消费者能感受到的功能。Galaxy S24系列主打的“Galaxy AI”核心功能,例如无需网络连接即可实时通话翻译,或仅凭文字描述即可生成图像,都得益于Exynos 2400的NPU。这是NPU技术如何成为旗舰产品核心竞争力的最具体例证。

SK的战略转型:从Sapeon到Rebellions联盟

SK集团也早已涉足AI芯片市场。由SK Telecom孵化的子公司“Sapeon”专注于开发数据中心推理用NPU。2020年,他们推出了韩国首个数据中心AI芯片X220”,随后又发布了大幅提升性能的“X330”。X330实现了比前代4倍以上的运算性能2倍以上的能效,其技术实力获得了认可,甚至被视为英伟达中端推理卡L40S的竞争对手。此外,它还通过了全球服务器制造商超微(Supermicro)的服务器兼容性认证,提高了商业化前景。

然而,SK有着更大的蓝图。他们决定避免韩国AI芯片初创公司之间过度竞争,而是要打造一个能在全球市场竞争的“国家队”。2024年,SK宣布将Sapeon与另一家NPU强企“Rebellions”合并。这是韩国AI芯片历史上具有里程碑意义的战略选择,旨在整合分散的技术和资源,组建对抗英伟达的联盟军。

无畏的挑战者:韩国的三大无厂半导体公司

韩国NPU生态系统的另一支力量,是掌握创新技术的**无厂半导体(Fabless,专注于芯片设计)**初创公司。在大型企业的支持和投资下,它们在各自领域取得了令人瞩目的成就。

Rebellions、FuriosaAI、DeepX等初创公司正引领着“K-半导体”的未来。
Rebellions、FuriosaAI、DeepX等初创公司正引领着“K-半导体”的未来。

Rebellions:背靠巨额投资的新星

Rebellions在成立仅三年多时间里就获得了累计2800亿韩元的投资,成为市场备受瞩目的初创公司。他们的主打产品是数据中心推理用NPUATOM”。Rebellions最大的成就是成功地将“ATOM”应用于实际的商业服务。KT作为Rebellions的战略投资者和核心合作伙伴,在其云数据中心引入ATOM成功商用了韩国首个国产NPU云服务ATOM还被用于KT的超大AI模型“믿음(Mi:dm)”的轻量化版本,证明了国产NPU可以充当实际AI服务的“大脑”。Rebellions的下一个目标是更大的市场。他们正与三星电子合作开发下一代AI芯片REBEL”。这款芯片旨在直接竞争ChatGPT等大型语言模型(LLM)市场,是Rebellions进军全球市场的关键武器。

FuriosaAI:以性能取胜的技术型挑战者

FuriosaAI是另一家凭借压倒性性能和效率挑战英伟达NPU强企。该公司成立于2017年,在推出了第一代芯片“Warboy”之后,最近又凭借第二代芯片“Renegade”震惊了市场。Renegade能在180W的低功耗下实现512 TOPS的高算力,在功耗效率上远超竞争对手的GPU。这项技术实力甚至让他们收到了Facebook母公司Meta的收购提议,但被拒绝了。FuriosaAI技术实力的关键验证来自于与LG AI研究院的合作。LG在测试其超大AI模型“Exaone”时,选择使用FuriosaAIRenegade而非昂贵的英伟达GPU,并取得了显著的性能提升。这是一个标志性事件,表明国产NPU可以成为大型企业核心LLM基础设施GPU的实际替代方案。此外,他们还为AI初创公司Upstage的OCR(光学字符识别)解决方案提供芯片,不断创造商业化案例。

DeepX:深耕边缘AI市场的细分领域强者

如果说RebellionsFuriosaAI主攻数据中心市场,那么DeepX则瞄准了完全不同的市场,即超低功耗“终端侧(Edge) AI市场”终端侧AI是指在智能手机、家电、机器人、CCTV等网络边缘设备上直接处理AI运算的技术。DeepX的核心竞争力在于为各种边缘设备提供优化的NPU产品组合。他们为物理安防、智能工厂、机器人、智能出行等不同应用领域提供定制化的AI芯片。此外,他们不仅仅销售芯片,还提供编译器、运行时、SDK(软件开发工具包)等“全栈软件”,让客户能够轻松开发和运行AI模型,从而提升客户的开发便利性。DeepX在CES 2024上获得三项创新奖,其技术实力获得了全球认可,并在终端侧AI这一特定领域建立了独特的竞争优势。

韩国的NPU开发正是如此,大型企业和初创公司基于各自的优势和角色,形成了紧密的生态系统。无厂初创公司进行创新设计,三星电子SK海力士提供代工生产(Foundry)和HBM(高带宽内存),KT或LG等大型企业则为初期市场打开通路,形成了一种共赢的模式。这种独特的“韩国NPU联盟”正在成为挑战英伟达霸权的、最现实也最有力的战略。

韩国NPU挑战者:竞争格局

公司 代表性产品 主要合作伙伴/赞助商
三星LSI Exynos 2400 三星电子 MX部门 (Galaxy)
Rebellions (已整合Sapeon) ATOM / REBEL / X330 KT, SK Telecom, 三星电子, IBM
FuriosaAI Renegade LG, Upstage, Naver
DeepX DX-M1 & 产品组合 各类行业客户

奔向未来:NPU市场前景与韩国的挑战

AI芯片市场正迎来爆炸性增长的序幕。未来的竞争对K-半导体来说,既是巨大的机遇,也是严峻的考验。市场的潜力有多大?在这个激烈的竞争中,韩国又需要克服哪些挑战?让我们来展望一下。

数千亿美元的机遇:NPU市场展望

市场分析机构对AI芯片市场的未来预测非常乐观。到2030年代初期,全球AI芯片市场规模预计将增长至数千亿美元。特别是NPU终端侧AI市场,预计将保持年均20%至35%的高增长率,成为最热门的战场。

这种增长将加速蔓延到智能手机、PC之外的汽车、机器人、医疗设备、智能家居等我们生活的方方面面。随着对能够在设备本身快速安全运行而无需依赖云端的AI的需求激增,低功耗、高能效的NPU的重要性将愈发凸显。韩国NPU企业所关注的“推理”和“终端侧”市场,正是这一增长的核心。

真正的战场:从硬件走向生态系统的竞争

然而,要收获未来市场的果实,光是制造出性能优越的芯片还远远不够。因为AI芯片战争的本质并非硬件规格的竞争,而是“软件生态系统”的争夺。这正是英伟达的霸权如此稳固,以及所有后来者面临的巨大挑战。

如前所述,英伟达的CUDA平台是其15年以上积累的软件资产。全球无数开发者已经熟悉CUDA环境,并在此基础上开发了海量的AI模型和应用。无论出现多么出色的NPU,如果缺乏易于开发者使用的软件工具(编译器、库、SDK等),它将毫无用处。开发者不愿意为了新的硬件而从头开始学习所有开发过程。

这就是为什么所有NPU企业都拼命开发自有软件栈的原因。DeepX在其招聘信息中强调编译器、运行时等全栈软件开发人员,Rebellions则以与PyTorchTensorFlow等标准框架的完美兼容性为卖点,这些都是为了在生态系统战争中生存下来的拼搏。

韩国政府也清楚地认识到这一问题的重要性。科学技术信息通信部主导的“K-Cloud项目”正是国家层面对此现实的战略应对。该项目计划到2030年投入超过4000亿韩元的预算,以国产NPU为基础,同时开发数据中心的硬件和软件基础设施。这不仅仅是支持个别企业,而是试图构建一个让国产NPU能够顺畅运行的庞大软件生态系统,即“韩国版CUDA”。该项目的成功与否,将是决定国内NPU产业未来的关键因素。

韩国半导体产业的未来:挑战与机遇

韩国的 K-半导体要想成为全球 NPU 市场的领导者,还有很长的路要走。但同时,也存在着明确的机会。

挑战

  1. 软件差距: 英伟达(Nvidia)数十年积累的 CUDA 生态系统依然强大。要追赶上来,需要持续巨额的投入。
  2. 规模与资金: 韩国初创公司在研发(R&D)上的投入,甚至不到英伟达的 1%。要参与全球竞争,迫切需要更大的资本和人才支持。
  3. 争取全球客户: 除了政府项目和国内大公司的合作,最终能否在生存和发展中取得成功,取决于能否打入要求严苛的全球科技巨头和数据中心市场,并赢得大规模订单。

机遇

  1. 抓住细分市场: 避开英伟达占主导地位的“学习”市场,转而专注于 NPU 具有结构性优势的“推理”和“边缘”市场,这是一个非常有效的战略。这样可以在这些市场建立技术优势,扩大市场份额。
  2. 国内生态协同: 韩国拥有世界顶级的内存(HBM)技术和代工(foundry)基础设施,这对 NPU 芯片设计公司来说是巨大的机会。HBM 制造商 SK 海力士、三星电子与 NPU 设计公司紧密合作,能够为下一代芯片开发带来强大的协同效应。
  3. 国家支持: “K-Cloud”等政府的强力支持政策,对初期市场开拓和技术研发加速具有重要作用。

韩国 NPU 公司的成功,不仅关乎国家产业发展,对全球 AI 产业也意义重大。目前,AI 产业过度依赖英伟达一家供应商存在风险。如果韩国的 Rebellions-Sapeon 联合体或 FuriosaAI 等公司能在全球数据中心市场成为有意义的替代选择,这将是 GPU 主导的 AI 硬件市场向 NPU 多元化转变的强烈信号。

这标志着围绕 AI 基础设施的未来,一场巨大的范式转变即将开始,而韩国的挑战者们正站在历史的中心。全球都在关注,像大脑一样运转的 NPU 将开启怎样的 AI 新时代,K-半导体又将扮演怎样的角色。

#NPU#AI#半导体#AI 半导体#系统半导体#on-device#CPU#GPU#神经网络处理器#K-半导体

Recommended for You

谷歌“倒闭”新闻是假象:AI大战的三件秘密武器

谷歌“倒闭”新闻是假象:AI大战的三件秘密武器

1 min read
在AI耗尽地球电力之前,我们为何必须走向太空

在AI耗尽地球电力之前,我们为何必须走向太空

4 min read
混沌理论:蝴蝶效应改变你人生的真正原因

混沌理论:蝴蝶效应改变你人生的真正原因

2 min read

Advertisement

评论