当前位置:首页 > 软件资讯 > ChatGPT专用GPU来了 英伟达H100至尊版速度提10倍

ChatGPT专用GPU来了 英伟达H100至尊版速度提10倍

分区:软件资讯 更新:2023-03-29 14:11:28

在GTC发布会上,靠着满屏的“生成式AI”,拿着一个支持ChatGPT计算能力、速度提升10倍的H100 NVLINK芯片,老黄只是在脸上写了这几个字——“我是赢家”。

AI的iPhone时刻已经到来,第四次科技革命即将开始,手握A100和H100的英伟达可能成为最大赢家。

在GTC发布会上,老黄公布了英伟达在GPU、加速库、计算光刻和云平台方面的辉煌进展,甚至放出豪言——英伟达是AI圈的TSMC!

有人推测,今天的演讲都是由H100上的AIGC模型生成的。

ChatGPT专用GPU已经到来

本次大会最重要的发布是面向ChatGPT的NVIDIA H100 NVLINK。

因为对计算能力的巨大需求,NVIDIA推出了新的Hopper GPU,双GPU NVLINK的PCIE H100,94B内存。

ChatGPT专用GPU来了1.gif

事实上,从2012年开始,深度学习的历史就与英伟达密切相关。

老黄说,2012年,深度学习的老手Hinton和学生Alex Kerchevsky和Ilya Suskever在训练AlexNet时使用了GeForce GTX 580。

随后,AlexNet一举拿下ImageNet图像分类大赛,成为深度学习大爆炸的奇点。

时隔10年,OpenAI中的Ilya Suskever也用NVIDIA的DGX训练出了落后于ChatGPT的GPT3和GPT3.5。

ChatGPT专用GPU来了2.gif

老黄自豪地说,云中唯一能真正处理ChatGPT的GPU是HGX A100。

但是和A100相比,一个四对H100,双GPU NVLINK的服务器要快10倍!因为H100可以将LLM的加工成本降低一个数量级。

随着生成式AI掀起的机会浪潮,AI处于转折点,使得推理工作量呈阶梯式函数增加。

ChatGPT专用GPU来了3.gif

在过去,设计一个云数据中心来处理生成式AI是一个巨大的挑战。

一方面,使用加速器让数据中心变得灵活是最理想的;另一方面,没有加速器能够以最优的方式处理算法、模型、数据类型和大小的多样性。Nvidia的One架构平台兼具加速和灵活性。

今天,英伟达宣布推出新的推理平台。每种配置都针对特定类型的工作负载进行了优化。

ChatGPT专用GPU来了4.jpg

比如针对AI视频工作负载,英伟达推出了L4,在视频解码转码、视频内容审核、视频调用等方面进行了优化。

ChatGPT专用GPU来了5.gif

一台8 GPU L4服务器将取代100多台双插槽CPU服务器来处理AI视频。

与此同时,英伟达还推出了L40,用于Omniverse、图形渲染和文本到图像/视频等生成性AI。其性能是英伟达最受欢迎的云推理GPU T4的10倍。

目前Runway推出的Gen-1和Gen-2生成式AI模型的强大能力都是基于英伟达的GPU。

ChatGPT专用GPU来了6.gif

此外,NVIDIA还推出了全新的超级芯片Grace-Hopper,适用于推荐系统和矢量数据库。

ChatGPT专用GPU来了7.gif

挑战芯片突破极限,计算光刻速度提升40倍

在芯片领域,英伟达联合TSMC、ASML和新思科技,终于完成了计算光刻技术的重大突破——英伟达Culitho计算光刻库。

达到2nm工艺极限后,光刻就是突破点。

计算光刻模拟光通过光学元件后与光刻胶相互作用的行为。通过应用逆物理算法,我们可以预测掩模板上的图案,从而在晶片上生成最终图案。

在芯片设计制造领域,计算光刻是最大的计算工作量,每年消耗数百亿CPU小时。相比之下,NVIDIA创造的这种新算法可以使日益复杂的计算光刻工作流程在GPU上并行执行。

综上所述,cuLitho不仅可以提升40倍的运算速度,还可以降低9倍的功耗。

ChatGPT专用GPU来了8.gif

比如英伟达的H100需要89个口罩。

如果用CPU处理,每个掩膜需要两周时间。如果在GPU上运行cuLitho,处理一个掩膜只需要8个小时。

TSMC还可以在500个DGX H100系统中使用4000个Hopper GPU来完成以前需要多达40000个基于CPU的服务器才能完成的工作,并且功率将从35MW降低到5MW。

ChatGPT专用GPU来了9.gif

值得注意的是,cuLitho加速器库也兼容Ampere和Volta架构的GPU,但Hopper是最快的解决方案。

老黄说,因为光刻技术已经到了物理极限,所以晶圆厂可以增产,为2nm及以上的发展做准备。

人工智能的IPhone时刻

最近几个月,ChatGPT处于掀起第四次科技革命的边缘。“我们正处于AI的iPhone时刻”的说法也广为流传。

在GTC会议上,老黄也激动地把这句话重复了三遍。

ChatGPT专用GPU来了10.jpg

当iPhone到来时,OpenAI等初创公司正在竞相建立颠覆性的产品和商业模式,而谷歌和微软等老牌公司正在寻找应对的方法。

他们的所作所为,都是世界上生成性AI引发的制定AI战略的迫切性。

英伟达的加速计算始于DGX AI超级计算机,这也是大规模语言模型突破背后的引擎。

在GTC,老黄自豪地说,我亲手把世界上第一个DGX交给了OpenAI。

ChatGPT专用GPU来了11.gif

此后,财富100强公司中有一半安装了DGXAI超级计算机。

DGX配备了8个H100 GPU模块,H100配备了Transformer引擎,可以处理ChatGPT这样令人惊叹的模型。

8个H100模块通过NVLINK交换机相互连接,实现全面无阻塞通信。八个H100协同工作,就像一个巨型GPU。

ChatGPT专用GPU来了12.gif

让老黄非常兴奋的是,微软宣布Azure将对其H100 AI超级计算机开放私人预览。

他还说,“DGX超级计算机是一个现代化的人工智能工厂。我们正处于人工智能的iPhone时代。」

ChatGPT专用GPU来了13.jpg

一手拿着ChatGPT出来

在过去的十年中,加速和垂直扩展的结合使各种应用程序实现了百万倍的性能提升。

印象最深的例子是2012年AlexNet深度学习框架的提出。

当时,Alex Krizhevsky、Ilya Suskever和Hinton使用1400万张图像在GeForce GTX 580上完成了训练,该设备可以处理26.2万亿次浮点运算。

十年后,变形金刚出现了。

伊利亚·苏斯科弗训练GPT-3预测下一个单词,这需要比训练AlexNet模型多一百万倍的浮点运算。

于是,震惊全世界的AI——chat GPT诞生了。

用老黄的一句话概括:

这意味着一个全新的计算平台已经诞生,AI的“iPhone时刻”已经到来。加速计算和人工智能技术已经成为现实。

加速器库是加速计算的核心。这些加速库连接各种应用,再连接各行各业,形成了网络中的网络。

经过30年的发展,NVIDIA的库已经加速了成千上万的应用,几乎涉及科学和工业的每个领域。

目前所有的NVIDIA GPUs都兼容CUDA。

现有的300个加速库和400个AI模型涵盖了量子计算、数据处理和机器学习等广泛领域。

ChatGPT专用GPU来了14.gif

在这次GTC会议上,NVIDIA宣布它已经更新了100个。

英伟达量子平台由库和系统组成,研究人员可以使用这些库和系统来推广量子编程模型、系统架构和算法。

CuQuantum是一个用于量子电路仿真的加速库,其中IBM、百度等公司都将这个加速库集成到了自己的仿真框架中。

Open Quantum CUDA是NVIDIA的混合GPU-量子编程模型。

Nvidia还宣布推出量子控制链接,这是与量子机器合作开发的。它可以将NVIDIA GPU连接到量子计算机,并以极快的速度纠正错误。

还有RAFT新库的推出,用来加快索引、数据加载和邻居搜索的速度。

此外,NVIDIA还宣布了DGX量子,与DGX建立,并使用最新的开源CUDA量子。这个新平台为从事量子计算的研究人员提供了革命性的高性能和低延迟架构。

ChatGPT专用GPU来了15.jpg

Nvidia还推出了NVIDIA Triton管理服务软件,可以在整个数据中心自动扩展和排列Triton推理案例。适用于GPT-3语言模型那样的多GPU、多节点推理。

用于计算机视觉的CV-CUDA和用于视频处理的VPF是NVIDIA新的云规模加速库。

ChatGPT专用GPU来了16.gif

老黄宣布CV-CUDA Beta优化了预处理和后处理,实现了更高的云吞吐量,成本和能耗降低了四分之一。

目前,CV-CUDA和VRF库都用于微软的视觉搜索和Runway的生成式AI视频处理过程中。

ChatGPT专用GPU来了17.jpg

此外,英伟达的加速计算也帮助基因组学实现了里程碑式的发展。使用NVIDIA辅助的仪器和设备将整个基因组测序的成本降低到100美元,成为了又一个里程碑。

NVIDIA Parabrics加速器库可用于云端或仪器设备中的端到端基因组分析,适用于各种公共云和基因组学平台。

ChatGPT专用GPU来了18.gif

ChatGPT在跑,NVIDIA在赚钱。

现在,ChatGPT、Stable Diffusion、DALL-E、Midjourney唤醒了世界对生成式AI的认知。

热门炸鸡ChatGPT上线仅两个月,月活就突破1亿,成为史上增长最快的应用。

ChatGPT专用GPU来了19.jpg

可以说是电脑。它不仅可以生成文本,写诗,重写研究论文,解决数学问题,甚至可以编程。

ChatGPT专用GPU来了20.gif

许多突破性的成果造就了今天的生成式AI。

Transformer可以以大规模并行的方式从数据的关系和依赖关系中学习上下文和含义。这使得LLM能够从海量数据中学习,并在没有明确培训的情况下执行下游任务。

此外,受物理学启发的扩散模型可以通过无监督学习生成图像。

老黄总结,短短十几年,我们从识别猫到生成在月球上行走的宇航服猫。

ChatGPT专用GPU来了21.gif

现在可以说,生成式AI是一种新的计算机,一种可以用人类语言编程的计算机。

ChatGPT专用GPU来了22.jpg

以前,命令计算机解决问题是程序员的专属特权,而现在每个人都可以成为程序员。

和比尔·盖茨一样,老黄也给出了类似的定义:生成式AI是一种新的计算平台,类似于PC、互联网、移动设备和云。

有了Debuild,我们只要明确自己想要什么,就可以直接设计部署Web应用。

ChatGPT专用GPU来了23.gif

显然,生成式AI将重塑几乎所有行业。

ChatGPT专用GPU来了24.gif

做人工智能的“TSMC”。

在这种背景下,专业公司需要使用自己的专有数据来构建定制模型。

然后,老黄骄傲地宣布,业界需要一个类似TSMC的代工厂来打造定制化的大语言模型,而英伟达就是这个“TSMC”!

在大会上,NVIDIA宣布推出NVIDIA AI Foundations云服务,允许客户定制LLM和生成式AI。

ChatGPT专用GPU来了25.jpg

这个云服务包括语言、视觉和生物建模服务。

其中,Nemo用于构建定制语言文本到文本的生产模型。

ChatGPT专用GPU来了26.gif

Picasso是一种视觉语言模型,可以用来训练定制模型,包括图像、视频和3D应用。

只要你向Picasso发送文本提示和元数据API调用,Picasso就会使用DGX云上的模型将生成的素材发送回应用程序。

更重要的是,通过将这些材料导入NVIDIA Omniverse,我们可以构建逼真的元动画应用程序和数字双胞胎模拟。

ChatGPT专用GPU来了27.gif

此外,英伟达也在与Shutterstock合作开发Edify-3D生产模型。

与此同时,英伟达和Adobe的合作不断扩大,将生成式AI融入营销人员和创意人员的日常工作流程,并特别关注艺术家版权的保护。

ChatGPT专用GPU来了28.gif

第三个领域是生物学。

如今,药物研发产业的价值已经达到近2万亿元,研发投入高达2500亿美元。

NVIDIA Clara是一个医疗和健康应用框架,用于成像、仪器仪表、基因组学分析和药物研发。

最近生物圈的热门方向是利用生成性AI寻找疾病的目标病因,设计新的分子或蛋白质药物。

ChatGPT专用GPU来了29.gif

相应地,BIONEMO允许用户创建、微调和提供带有专有数据的定制模型,包括AlphaFold、ESMFold和OpenFold等蛋白质预测模型。

ChatGPT专用GPU来了30.gif

最后,老黄总结道,NVIDIA AI Foundations是一个构建定制语言模型和生成式AI的云服务和代工厂。

老黄云服务,月租36999美元。

这一次,英伟达也推出了云服务。

它敏锐地意识到,客户需要更容易和更快地访问英伟达人工智能,因此它推出了英伟达DGX云。

ChatGPT专用GPU来了31.jpg

DGX云与微软Azure、谷歌GCP和甲骨文OCI合作。只要一个浏览器,英伟达DGX AI超级计算机,你可以瞬间访问每一家公司!

在这个云上,你可以运行英伟达AI企业加速库套件,直接解决AI的端到端开发和部署。

而且云不仅提供英伟达AI,还有全球几大云服务提供商。

英伟达的第一个英伟达DGX云是甲骨文云基础设施(OCI)。

ChatGPT专用GPU来了32.jpg

在OCI,NVIDIA CX-7和BlueField-3结合起来,立即形成了一个强大的超级计算机。

据报道,企业现在可以租用DGX云,每月36999美元起。

最后当然还是每年GTC大会的保留节目——omni verse。老黄宣布元宇宙平台Omniverse更新。

ChatGPT专用GPU来了33.gif

现在,微软和英伟达正准备将Omniverse带给数亿微软365和Azure用户。

另外,据报道,老黄为了让H100出口中国合规,特意根据之前A800的经验调整了一个“H800”,将芯片间的数据传输速率降低到H100的50%左右。

综上所述,老黄在这次大会上已经说得相当清楚了,Nvidia要做AI领域的TSMC,像代工厂一样提供OEM服务,在此基础上让行业内的其他公司来训练算法。


  • 最新资讯
  • 最新软件