NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑

来源:攒机帮 2022-09-17 22:12 阅读:27

【此文章来自:Mashdigi】

NVIDIA A100 GPU与DGX A100登场

在先前有不少消息传出后,NVIDIA于线上形式进行的GTC 2020主题演讲内容正式宣布推出以台积电7nm製程打造、代号「Ampere (安培)」显示架构,并且应用在新一代NVIDIA A100 GPU。

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲NVIDIA执行长黄仁勋藉由首次举办的厨房主题演讲介绍此次主角「Ampere」显示架构,以及採用新款GPU打造的超级电脑

相比前一代Volta架构GPU设计,NVIDIA强调以Ampere架构打造的GPU将能带来6倍以上运算效能,同时增进7倍以上的人工智慧推论效率。

而採用Ampere架构设计的NVIDIA A100 GPU,分别搭载540亿组电晶体、对应每秒1.6 Terabytes运算量,本身则採用3D叠合封装设计,同时也对应第三代对应TF32运算的Tensor Cores设计,藉此对应更快的单精度人工智慧运算加速效果,另外也加入结构疏离运算加速特性,让人工智慧运算效能可大幅提昇。

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲以台积电7nm製程打造、代号「Ampere (安培)」显示架构

此外,藉由MIG (Multi-instance GPU)设计,更可让NVIDIA A100最多可划分成7组独立GPU,并且能分别对应不同运算资源。而藉由第三代NVLink设计,则更可让多组NVIDIA A100串接,藉此形成运算效能更庞大的GPU。

配合推出NVIDIA A100 GPU,NVIDIA也宣布打造以8组NVIDIA A100 GPU为基础,透过NVLink串接而成的超级电脑NVIDIA DGX A100,标榜将可提供5 Petaflops运算效能,并且能同时执行56组独立运算应用服务,而建议售价则从199000美元起跳。

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲NVIDIA DGX A100

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲能以不同形式模组化打造的HGX A100

在电力损耗方面,藉由5组NVIDIA DGX A100建构用于人工智慧训练与推论的资料中心,仅需以28千瓦电力运作,同时总计花费仅需100万美元。相比先前提出的DGX-1超级电脑必须以50组建构才能得到相同运算效能,或是必须透过600组CPU才能达成相同运算效能,同时耗电量高达630千瓦,而建构费用高达1100万美元的情况,显然以NVIDIA DGX A100投入建构资料中心将能会得更大经济效益。

与先前推行超级电脑一样,此次推出的NVIDIA DGX A100超级电脑,同样可藉由串接组成可对应更大运算规模的DGX A100 SUPERPOD,其中总计以140组NVIDIA DGX A100超级电脑组成,总计使用1120组NVIDIA A100 GPU,并且以170组Mellanox Quantum 200G InfiniBand Switch进行串接,同时藉由15公里距离光纤对应每秒280TB资料传输,而资料储存部分则是藉由4 PB快闪记忆体元件进行运作。

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲NVIDIA DGX A100 SUPERPOD

DGX A100 SUPERPOD约可在3週内完成建置,并且对应高达700 PFLOPS人工运算效能,几乎与全球排名前20名的超级电脑效能相当。

目前NVIDIA已经与美国能源部位于伊利诺州杜佩奇县的阿贡国家实验室合作,透过DGX A100运算效能用于研究新型冠状病毒,另外也与美国佛罗里达大学及德国研究中心合作用于人工智慧技术研究。

针对云端运算,以及OEM厂商产品客製化设计需求,NVIDIA也藉由NVIDIA A100 GPU打造模组化设计的HGX A100伺服器,其中可藉由NVLink串接4组NVIDIA A100 GPU建构,或是透过NVSwitch串接8组NVIDIA A100 GPU,其中可最多分配成56组小型GPU,每组GPU可对应比NVIDIA T4更高运算效能,或是分配成8组GPU形式,藉此让GPU运算效能可达10 Petaflops规模。

其中包含阿里云、AWS、百度云、Google Cloud、微软Azure、甲骨文、腾讯云都将以NVIDIA A100 GPU建构云端服务,同时包含源讯、Cisco、Dell、富士通、技嘉、杭州华三通信技术、HPE、浪潮、联想、广达/云达科技与Supermicro都会推出基于NVIDIA A100 GPU的伺服器产品。
至于针对边缘运算应用需求,此次公布内容也同步宣布推出NVIDIA EGX A100,同样藉由Ampere显示架构打造的GPU,搭配Mellanox ConnectX-6 SmartNIC网路连接卡加快数据运算传输效率,同时确保传输过程时的数据安全。

配合推出新款GPU,NVIDIA也同步宣布更新可对应加速运算、模拟与人工智慧推论使用的CUDA-X函式库、CUDA 11,同时也更新多模态对话式人工智慧服务框架Jarvis,以及HPC开发工具组与深度推荐应用框架Merlin。

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲NVIDIA EGX A100

NVIDIA揭晓7nm製程的「Ampere」GPU,同步推出全新超级电脑
▲Mellanox ConnectX-6 SmartNIC网路连接卡