芯片圈变天了！英伟达推出首个CPU，狂捧Arm生态

星宇心空 · 发表于 2020-12-24 03:41:43

芯东西（ID：aichip001）

作者 | 心缘

编辑 | 漠影

芯东西4月13日报道，本日破晓，一年一度影响人工智能及高性能盘算技能盛会NVIDIA GTC准期而至，这是GTC大会继客岁后第二次在线上举行。

NVIDIA（英伟达）首创人黄仁勋依然穿着拉风的皮衣，在自家厨房举行发布会。可以显着看到，老黄的头发更白了，也更长了。

客岁NVIDIA重磅发布旗舰A100 GPU以及一系列服务器、集群、超算，惊动整个人工智能范畴，现在，老黄带着一系列软硬件新品高调回归。

千万没想到，这一次，环球GPU霸主NVIDIA推出了一款基于Arm的数据中央CPU！

在公布400亿美元收购Arm的6个月后，NVIDIA连发三款基于Arm IP打造的处置惩罚器，包罗环球首款专为TB级加快盘算而计划的CPU NVIDIA Grace、全新BlueField-3 DPU，以及业界首款1000TOPS算力的主动驾驶汽车SoC。

“我们每年都会发布冲动民气的新品。三类芯片，逐年飞跃，一个架构。”黄仁勋说，数据中央门路图包罗CPU、GPU和DPU这三类芯片，而Grace和BlueField是此中必不可少的关键构成部门。每个芯片架构历经两年的打磨周期（周期内大概出现变化），一年专注于x86平台，另一年专注于 Arm 平台。

睁开全文

别的，NVIDIA还公布了与亚马逊AWS、Ampere Computing、联发科和Marvell等基于Arm的CPU平台的互助同伴关系。

在软件方面，超大规模语言模子练习与推理问答引擎Megatron、及时对话式AI平台Jarvis、AI网络安全框架Morpheus、Omniverse企业版、由GPU加快的量子电路模仿框架CuQuantum等一系列最新希望初次发表。

显然，面向数据中央异构盘算的新天地，NVIDIA正聚集软硬件技能上风，打出高调的组合拳。

一、3款自研Arm芯：首颗数据中央CPU落地环球最快AI超算

此次发布会令人最印象深刻的，就是NVIDIA在助推Arm生态方面尽心尽力，从自研CPU、DPU、主动驾驶处置惩罚器到GPU的互助同伴，从云、高性能盘算、边沿盘算到PC，无处不Arm。

先来看下这次发布的五款硬件新品：

1、首颗数据中央CPU：落地环球最快AI超算

黄仁勋公布的第一个重磅新品，是一款专为大规模人工智能和高性能盘算应用而计划的CPU——NVIDIA Grace。

绝大多数的数据中央仍将继承利用现有的CPU，而Grace重要将用于盘算范畴的细分市场，预计将于2023年可供货。

由于超大规模的模子很难完全放进GPU内存，假如存储在体系内存，访问速率则会大大受限，这款CPU的问世重要便是为了办理这一瓶颈。

NVIDIA Grace以发明白天下上第一个编译器、被称为“盘算机软件工程第一夫人”的先驱盘算机科学家Grace Hopper定名，详细有3点创新进步：

（1）内置下一代Arm Neoverse内核，每个CPU能在SPECrate2017_int_base基准测试中单元时间运行凌驾300个实例；

（2）接纳第四代NVIDIA NVLink，从CPU到GPU毗连速率凌驾900GB/s，到达相称于现在服务器14倍的带宽；从CPU到CPU的速率凌驾600GB/s。

（3）拥有最高的内存带宽，接纳的新内存LPDDR5x技能，带宽是LPDDR4的两倍，能源服从进步了10倍，能提供更多盘算本领。

来岁将有两台性能强盛的AI超等盘算机面世，都将接纳NVIDIA Grace，据称其与NVIDIA GPU精密联合，性能将比现在最先辈的NVIDIA DGX体系（在x86 CPU上运行）高出10倍。

这两台AI超算中，瑞士国家盘算中央（CSCS）正在打造一个算力可达20Exaflops的体系，美国洛斯阿拉莫斯国家实行室（Los Alamos National Laboratory）也将为其研究职员配备新AI超算。

2、Bluefield-3 DPU：220亿晶体管

在黄仁勋看来，负责在数据中央传输和处置惩罚数据的数据处置惩罚单位（DPU），正与CPU、GPU共同构成“将来盘算的三大支柱”。

NVIDIA全新BlueField-3 DPU包罗220亿个晶体管，接纳16个Arm A78 CPU焦点、18M IOPs弹性块存储，加密速率是上一代的4倍，并完全向下兼容BlueField-2。

BlueField-2可以或许卸载相称于30个CPU核的工作负载，而BlueField-3实现了10倍的加快盘算性能提拔，可以或许替换300个CPU核，以400Gbps的速率，对网络流量举行掩护、卸载和加快。该处置惩罚器也是首款支持第五代PCIe总线并提供数据中央时间同步加快的DPU。

BlueField-3通过NVIDIA DOCA（集数据中央于芯片的架构）软件开辟包为开辟者提供一个完备、开放的软件平台，开辟在BlueField DPU上开辟软件界说和硬件加快的网络、存储、安全和管理等应用。DOCA已于本日发布并提供下载。

新一代BlueField-3 DPU预计将于2022年第一季度发布样品，第四代BlueField DPU将包罗640个晶体管，算力达1000TOPS，网络速率达800Gbps。

3、车轮上的数据中央：业界率先告竣1000TOPS

NVIDIA DRIVE Atlan是新一代AI主动驾驶汽车处置惩罚器，算力将到达1000TOPS，约是上一代Orin处置惩罚器的4倍，凌驾了绝大多数现有无人驾驶出租车的后代盘算本领。

这是DRIVE平台初次集成DPU，通过Arm核为主动驾驶汽车带来数据中央级的网络，致力于应用到2025年的车型。

该SoC接纳下一代GPU的体系布局、新型Arm CPU内核、新深度学习和盘算机视觉加快器，并内置为先辈的网络、存储和安全服务的BlueField DPU，网络速率可达400Gbps。

黄仁勋夸赞说：“Atlan集NVIDIA在AI、汽车、呆板人、安全和BlueField安全数据中央范畴的全部技能之大成，堪称一项技能古迹。”

4、便捷式AI数据中央和DGX SuperPod双升级

黄仁勋还公布升级NVIDIA专为工作组打造的“便携式AI数据中央”NVIDIA DGX Station，以及NVIDIA专为麋集型AI研发打造的AI数据中央产物NVIDIA DGX SuperPod。

全新DGX Station 320G借助320GB超快速HBM2e毗连至4个NVIDIA A100 GPU，内存带宽到达每秒8TB。然而，仅需将其插入平凡的壁装电源插座即可利用，耗电量只有1500W。

黄仁勋说，到达这种性能的CPU集群本钱约为100万美元，而DGX Station仅需14.9万美元。

DGX SuperPOD利用全新80GB NVIDIA A100，将其HBM2e内存提拔至90TB，实现2.2EB/s的总带宽。要实现云云的带宽，必要11000台CPU服务器，约莫相称于有250个机柜的数据中央，比SuperPOD多15倍。

现在它已经升级至接纳NVIDIA BlueField-2，且NVIDIA现在还为该产物提供配套的NVIDIA Base Command DGX管理和编排工具。

5、Aerial A100：5G+AI的新型边沿盘算平台

黄仁勋还提到了NVIDIA的AI-on-5G盘算平台，这是一款专为边沿计划、将5G和AI相联合的新型盘算平台。该平台将接纳NVIDIA Aerial软件开辟套件与NVIDIA BlueField-2 A100，将GPU和CPU组合成“有史以来最先辈的PCIE卡。”

富士通、谷歌云、Mavenir、Radisys和Wind River等互助同伴都在开辟实用于NVIDIA AI-on-5G平台的办理方案。

二、协作亚马逊自研CPU支持云服务，打造Arm+GPU新PC

除了推出基于Arm的CPU外，NVIDIA还公布一系列与Arm处置惩罚器计划商的互助希望，包罗将为亚马逊AWS Graviton2 CPU提供GPU加快、为科学和AI应用开辟提供支持的全新HPC开辟者套件、提拔边沿视频分析和安全功能、打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC等。

这些活动反映出无论是市场照旧NVIDIA自身，对基于Arm的办理方案的爱好已经超出移动范畴。

1、NVIDIA GPU搭配亚马逊自研CPU赋能云服务

2021年下半年，基于亚马逊云科学（AWS）自研服务器处置惩罚器AWS Graviton2的Amazon EC2实例将与NVIDIA GPU相联合，在云端摆设。

这一新组合将实现低落本钱、支持更丰富的游戏串流体验、优化云上安卓游戏和人工智能推理、以更低本钱提供更高的AI推理性能等上风。

黄仁勋说：“我们致力于将Arm生态体系扩展到移动和嵌入式体系以外的市场，而本日公布的新互助同伴，正是我们迈出的第一步。”

2、新HPC开辟者套件，支持科学和AI应用开辟

为了更好地支持科学和AI应用开辟，面向高性能盘算范畴，NVIDIA推出了全新HPC开辟者套件。

NVIDIA全新HPC开辟者套件为超等盘算机提供了一个高性能、高能效的平台，该平台联合了1个Ampere Altra CPU（包罗80个Arm Neoverse核，运行频率高达3.3GHz）、双NVIDIA A100 GPU（每个GPU可提供312TFLOPS的FP16深度学习性能）、两个用于加快网络、存储和安全的NVIDIA BlueField-2 DPU。

该开辟者套件包罗一套NVIDIA编译器、库和工具，可用于创建HPC和AI应用，以及将其迁徙到GPU加快的Arm盘算体系中，将于2021年第三季度上市，多家顶尖研究机构已率先睁开摆设。

3、加快边沿安全功能，打造由GPU驱动的新PC

本日NVIDIA还公布了提拔边沿视频分析和安全功能、打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC等希望。

在边沿盘算范畴，NVIDIA正扩大与Marvell的互助，将基于Arm的OCTEON DPU与GPU相联合，加快AI工作负载，实现网络优化和安全。

在PC范畴，NVIDIA与环球最大的基于Arm的SoC供应商之一联发科互助，共同打造一个接纳Arm核与NVIDIA显卡、支持Chromium、Linux和NVIDIA SDK的参考平台，将GPU的性能及先辈的AI、光线追踪图形等技能带入Arm PC平台。

别的，NVIDIA也正与富士通、SiPearl等其他互助同伴共同致力于扩展Arm生态体系。

三、更多AI平台落地，首秀量子电路模仿框架

NVIDIA在客岁推出了一个机架比肩AI数据中央的AI体系DGX A100、AI算力高达700 PFLOPS的集群DGX SuperPOD、万万亿级工作组服务器DGX Station A100。

面向AI应用需求，NVIDIA已经提供Megatron、Jarvis、Merlin、Maxine、Isaac、Metropolis、Clara和DRIVE、以及各种可利用TAO举行定制化的预练习模子。

本日，NVIDIA进一步强化企业盘算服务，不但推出大型语言模子练习与推理问答引擎、公布对话式AI平台最新落地希望，还展示了其量子电路模仿框架。

1、NVIDIA EGX：扩大认证服务器生态体系

为进一步实现AI民主化，黄仁勋发布了来自顶尖制造商的新系列NVIDIA认证体系，即大容量企业级服务器，现已通过认证。

这一体系可运行NVIDIA AI Enterprise软件套件，该套件得到了环球应用最广泛的盘算假造化平台——VMware vSphere 7的独家认证。

NVIDIA本日推出多款新体系，以扩大NVIDIA认证服务器生态体系。这些新体系配备用于主流AI和数据分析的NVIDIA A30 GPU，以及用于AI图形、假造工作站以及混淆盘算和图形工作负载的NVIDIA A10 GPU。

2、Megatron：超大型语言模子练习与推理

黄仁勋发布了用于练习Transformers的超大语言模子的NVIDIA Megatron Triton推理服务器。

Transformers已资助开辟者在天然语言处置惩罚范畴取得了突破性希望，可以或许天生文档择要、将电子邮件中的短语增补完备、对考试举行评分、天生体育赛事现场批评、乃至天生代码。

利用Megatron Triton的DGX A100能在1秒内做出相应，可同时支持16项查询，而双插座CPU服务器支持1条问询就凌驾了1分钟。

3、Jarvis：及时对话式AI平台现可利用

Jarvis是一个基于NVIDIA GPU提供及时性能的机动、多模态对话式AI服务应用框架，可资助开辟者轻松实现及时语音辨认、转录、择要、翻译、封闭式字幕、假造助手、谈天呆板人等功能。

如今，NVIDIA已经是一个生产停当、现已可用的端到端对话式AI模子，企业可基于自身数据和特定需求对模子做进一步的微调，并利用NGC实如今云或边沿快速摆设定制化语言型AI服务。

为资助客户将自身专业知识应用于AI范畴，黄仁勋还公布推出NVIDIA TAO，其可以运用客户和互助同伴的数据，对NVIDIA预练习模子举行微调和适配，同时掩护数据隐私。

4、Morpheus：AI网络安全应用框架

为了保障当代化数据中央的安全，黄仁勋公布推出基于NVIDIA GPU、BlueField DPU、Net-Q网络遥测软件和EGX的新型AI框架而构建的NVIDIA Morpheus数据中央安全平台，可以或许对完备的数据包举行及时检测、防备安全威胁，现可争先试用。

作为一个基于AI的云原生网络安全框架，NVIDIA Morpheus通过在边沿和AI技能的联合，使用及时的遥测、计谋实行及操纵，可以在不捐躯本钱和性能的环境下分析更多的安全数据，辨认、捕获和应对以往无法辨认的威胁和非常环境，如未加密敏感数据的泄漏、网络垂纶攻击和恶意软件。

Morpheus与BlueField DPU相联合，使网络中的每个盘算节点都成为边沿网络防御传感器，企业无需复制数据，也可以或许以线速分析每个数据包。相比之下，传统的AI安全工具通常只能采样5%左右的网络流量数据，因此威胁检测算法并非基于完备的模子。

同步推出的BlueField-3可为NVIDIA Morpheus提供及时的网络可视化、网络威胁的检测与相应、以及监控、遥测和署理服务。开辟者还可以或许在现有IP投资的底子上，利用深度学习模子来创建本身的Morpheus AI功能。

5、CuQuantum：量子电路模仿框架

为加速有赖于量子位（或量子比特，能作为单个的0或1存在，也可以同时作为二者存在）的量子盘算研究，黄仁勋推出了cuQuantum，为量子电路模仿器提供加快。

这是专为模仿量子电路而计划的加快库，实用于张量网络求解器和状态向量求解器，颠末优化后，可以扩展到大GPU显存、多个GPU和多个DGX节点。

运行cuQuantum基准测试时，状态向量模仿在双CPU服务器上必要10天，但在DGX A100上只需2小时，DGX上的cuQuantum可以高效模仿10倍的量子位，从而助力研究职员计划出更美满的量子盘算机。

四、公布主动驾驶新平台，扩大与沃尔沃互助

主动驾驶汽车（AV，Autonomous vehicles）是NVIDIA比年来极其器重的赛道之一。除了前文提及的1000TOPS主动驾驶处置惩罚器外，此次黄仁勋还推出了Hyperion 8 AV平台，并公布沃尔沃汽车扩大与NVIDIA的互助。

NVIDIA Hyperion 8 AV平台是一个先辈的数据收罗、开辟和测试平台，包罗参考传感器、主动驾驶汽车和中心盘算机、3D地面真实数据记载仪、网络以及全部须要的软件。

沃尔沃汽车从2016年开始借助高性能且高能效的NVIDIA DRIVE的算力，基于NVIDIA DRIVE Xavier，为新车型开辟AI辅助驾驶功能，软件则由沃尔沃汽车旗下的主动驾驶软件开辟公司Zenseact自主研发。

黄仁勋说，将于2022年投产的NVIDIA主动驾驶汽车盘算体系级芯片NVIDIA DRIVE Orin，旨在成为汽车的中心电脑。

而沃尔沃汽车将为新一代汽车的主动驾驶盘算机配备NVIDIA DRIVE Orin。

这意味着两家公司的互助深入到更多软件界说车型，首发就是将于2022年发布的新一代XC90。

五、推出英伟达Omniverse企业版，赋能Drive SIM 2.0

黄仁勋夸大说，NVIDIA是一家软件平台公司，并鼎力大举发展NVIDIA AI和将3D天下毗连至共享假造天下的NVIDIA Omniverse。

NVIDIA Omniverse是一款多GPU可扩展的云原平生台，支持建模、结构、着色、合成、渲染、动画等一系列构建3D假造建模所需的功能，用于仿真、协作和自主呆板练习。

其特点还包罗：具有高物理精度、可以或许充实运用RTX及时路径追踪和DLSS、可以利用NVIDIA MDL模仿质料、可以利用NVIDIA PhysX模仿物理学而且与NVIDIA AI完全集成。

黄仁勋提到：“Omniverse旨在创建共享假造3D天下，就像尼尔·斯蒂芬森在1990年代早期的小说《雪崩》中所形貌的科幻假造空间那样。”

客岁12月，NVIDIA推出了Omniverse公测版本。自公测版发布以来，修建、游戏以及大型广告公司等互助同伴都将Omniverse运用到其工作中。

从本年夏日开始，NVIDIA将提供Omniverse企业授权允许。

黄仁勋还公布DRIVE Sim将于本年夏日开放供业界利用。他提到Omniverse中的DRIVE数字孪生是可以或许与车队中每一位工程师和每一辆车互联的假造空间。

正如Omniverse可以或许构建汽车生产工厂的数字孪生一样，DRIVE Sim也可用于创建主动驾驶汽车的数字孪生，并将其用于主动驾驶汽车的开辟。

别的，NVIDIA正与宝马互助打造一个完全接纳数字化计划的将来工厂，自始至终在Omniverse中举行模仿，创建数字孪生，并让呆板人与人类协同工作开展运营。

结语：NVIDIA集齐“将来盘算的三大支柱”

总体来看，NVIDIA本日公布的多项结果与希望，为基于Arm的办理方案带来更多大概性，NVIDIA这又打造硬件又优化软件的势头，更加彰显了其主导数据中央范畴AI和HPC市场的刻意，也为颇负盛名的GTC大会打出了响亮的头炮。

此次GTC线上大会共凌驾10万人注册参会，共计将举行1600多场技能演讲。在接下来的5天内，3位图灵奖得主、12位戈登-贝尔奖得主、10位奥斯卡奖得主，以及来自微软、Arm、奥迪汽车、亚马逊、通用电气、微软等企业的向导人均将在此次科技盛会上发演出讲。

从最新一系列积极来看，NVIDIA身上早已贴上远多于GPU巨头的更多标签，成为全栈盘算平台。首款数据中央CPU的发布，也宣告着NVIDIA的异构盘算结构再添新的关键元件，数据中央产物线集齐CPU、GPU、DPU这“将来盘算的三大支柱”。

NVIDIA正卯足了劲儿推进将GPU与Arm系CPU相联合的生态发展，这统统显然还只是开始。返回搜狐，检察更多

责任编辑：

芯片圈变天了！英伟达推出首个CPU，狂捧Arm生态

相关帖子