美国当地时间8月8日早上,英伟达创始人、CEO黄仁勋在世界计算机图形会议SIGGRAPH2023上,开场回顾了英伟达在图形计算上的高光时刻,并且展示了最新实时渲染的4K分辨率3D赛车追逐Demo。
不过,仅仅几分钟后,“皮衣教主”的演讲,就从3D图形完全过渡到AI上了。作为人工智能浪潮中最重要的人物,黄仁勋为“普及生成式AI”提供了更生猛的硬件和更智能的应用和平台。
当天,黄仁勋曝光了用于生成式AI的GH200 Grace Hopper超级芯片、NVIDIA AIWorkbench以及通过生成式AI和OpenUSD升级的NVIDIA Omniverse。
同时,黄仁勋还宣布英伟达与AI开源社区Hugging Face合作,将把生成式AI超级计算能力交付给数百万开发者,为他们构建大型语言模型(LLM)和AI应用提供支持。
“还是那句话,买的越多,省的越多。”即使到了现在,黄仁勋依然不改金牌销售的风格。
“核弹工厂”,即将上线
“生成式AI时代的来临,就像iPhone时刻一样。”黄仁勋感慨,英伟达加速计算的旅程与深度学习研究人员的旅程相遇,现代人工智能的大爆炸发生了。
五年前,英伟达通过在GPU上引入AI和实时光线追踪,重新定义了图形技术。但是“当我们通过AI重新定义计算机图形时,我们也正在为AI重新定义GPU。”
结果就是,出现了越来越强大的系统,例如NVIDIA HGX H100,利用八个GPU,总计1万亿个晶体管,比基于CPU的系统提供了更显著的“加速计算”。
五年后,为了继续推动AI发展,英伟达推出了Grace Hopper超级芯片,即 NVIDIA GH200,它将72核Grace CPU与Hopper GPU相结合,提供1 EFLOPS的AI算力和144TB的高速存储,并于今年5月全面投产。
对于GH200,黄仁勋在演讲又拿出了看家金句,“如果我可以请你记住我今天演讲中的一件事,那就是,未来属于加速计算,你买的越多,你省的越多。”
NVIDIA GH200最可怕的不是性能强悍,而是近乎疯狂的“可扩展性”。
GH200 Grace Hopper超级芯片平台。该平台连接多个GPU,用于处理复杂的生成式工作负载,包括大型语言模型、推荐系统和矢量数据库。据称,与前一代相比,双配置的内存容量是之前的3.5倍,带宽是之前的3倍,服务器配备144个Arm Neoverse核心、8 petaflops的AI性能和282GB的最新HBM3e内存技术。预计2024年第二季度将有客户基于该平台推出自己的系统。
根据老黄的说法,在相同的成本(1亿美元)下,2500块GH200组成的计算中心,在AI计算的能效上,要比传统的CPU计算中心高20倍。
如果说上千块GH200适用的对象是“前沿大语言模型”,对于已经成为“主流”的模型,英伟达也提供了能被普通人和公司使用的、成本更低的产品。
基于专业图形应用需求,如计算机辅助设计和数字内容创作,英伟达还发布了基于Ada Lovelace架构的RTX 4000 20GB、RTX 4500 24GB和RTX 5000 32GB,分别能提供26.7、39.6、65.3FP32TFLOPS的计算性能。
此外,英伟达还推出了搭载L40S GPU的OVX服务器产品,每台服务器最多可以装八个L40S GPU,每个GPU有48GB内存。对于具有数十亿参数和多种数据模态的复杂AI工作负载,相较于A100 Tensor Core GPU,L40S能够实现1.2倍的生成式AI推理性能和1.7倍的训练性能。
“专为生成式AI时代打造的AI超算”,GH200的PPT页面上如此写道。
联手开源,“普惠生成AI”
为了加速各类企业定制生成式AI,黄仁勋宣布,英伟达推出“AI Workbench”。
据称,它为开发人员提供了一个统一、易于使用的工具包,可以在个人电脑或工作站上快速创建、测试和微调生成式AI模型,然后将其扩展到几乎任何数据中心、公有云或NVIDIA DGX Cloud。
AIWorkbench主要降低企业启动AI项目的门槛。通过在本地系统上运行的简化访问界面,它允许开发人员从流行库(如Hugging Face、GitHub和NGC)中微调模型,使用自定义数据。然后,这些模型可以在多个平台之间共享。
全球各地企业都在竞相寻找合适的基础架构并构建生成式AI模型和应用,尽管现在已经有数以千计的预训练模型可用,但是使用许多开源工具进行定制可能仍具挑战性且耗时。
“为了使这种能力普惠,我们必须使其能够在几乎所有地方运行。”黄仁勋称:“让所有人都能参与生成式AI。”
借助AI Workbench,开发人员可以只需点击几下就可以定制和运行生成式AI。它允许他们将所有必要的企业级模型、框架、软件开发工具包和库汇集到一个统一的开发者工作区中。
据称,包括戴尔、惠普、Lambda、联想和Supermicro,都正采用AI Workbench,因为它可以将企业生成式AI能力带到开发人员希望工作的任何地方,包括本地设备。
在演讲中,黄仁勋展示了AI Workbench和ChatUSD如何将所有这些功能结合在一起:允许用户从GeForce RTX 4090笔记本电脑启动项目,并随着项目变得更加复杂而无缝扩展到工作站或数据中心。
据黄仁勋展示,用户可以提示模型生成一张玩具黄仁勋在太空中的图片,但初始模型提供的结果不适用,因为它从未见过玩具黄仁勋,这时候用户可以用八张玩具黄仁勋的图片微调模型,然后再次输入提示,获得正确的结果。
然后,使用AI Workbench,新模型就可以部署到企业应用程序中。
黄仁勋还宣布了英伟达与Hugging Face的合作伙伴关系,后者拥有200万用户,或将使英伟达的生成式AI计算能力成为数百万开发人员构建大型语言模型和AI应用的工具。
作为合作的一部分,Hugging Face将提供一个新的服务——“练集群即服务”(Training Cluster as a Service),由NVIDIA DGX Cloud提供支持,该服务将在未来几个月内推出。
开发人员将能够在Hugging Face平台内访问NVIDIA DGX Cloud AI超级计算,以训练和微调先进的AI模型。据悉,Hugging Face社区已分享超过25万个模型和5万个数据集。
“这将是一个全新的服务,将世界上最大的AI社区与世界上最好的训练和基础设施连接起来。”黄仁勋称。
ChatUSD,对话式“3D生成。
例如,Wonder Dynamics通过新的OpenUSD导出支持,可以自动将计算机生成的角色动画、灯光和合成到现实场景中。Move AI可以使用Move One应用程序进行单摄像机运动捕捉,可以生成3D角色动画,然后可以导出到OpenUSD并在 Omniverse中使用。
现在,Omniverse用户可以构建与其他基于OpenUSD的空间计算平台(如ARKit和RealityKit)兼容的内容、体验和应用程序。
另外,黄仁勋还宣布了由英伟达构建的四个新的Omniverse Cloud API,包括 ChatUSD、RunUSD、DeepSearch和USD-GDNPublisher,供开发人员更无缝地实现和部署OpenUSD管道和应用程序。
其中,ChatUSD可以回答USD知识问题或生成Python-USD代码脚本;RunUSD可以将USD文件转化为渲染图像;DeepSearch可以实现语义3D搜索;USD-GDN Publisher可用于发布基于OpenUSD的高保真体验,实时流式传输到Web浏览器和移动设备。
英伟达Omniverse和模拟技术副总裁称,“工业企业正在竞相将其工作流数字化,这增加了对启用OpenUSD的、连接的、可互操作的3D软件生态系统的需求。” “最新的Omniverse升级让开发人员通过OpenUSD利用生成式人工智能来增强他们的工具,同时允许企业构建更大、更复杂的全球规模模拟,作为其工业应用的数字测试场。”
目前都有谁在用Omniverse?据黄仁勋介绍,科技公司正在用它测试和模拟协作机器人,亚马逊用它模拟车队将仓库数字化,汽车厂商如梅赛德斯用它来模拟自动驾驶汽车,宝马用它模拟新的电动汽车生产线,将全球工厂网络数字化,Deutsche Mind用它创建铁路网络的数字孪生,甚至还有公司用它创建地球的数字孪生,即地球的气候系统等等。
据悉,英伟达还正在开发一种新的SimReady 3D模型结构。这些模型将包括真实的材料和物理属性,这对于准确训练自主机器人和车辆至关重要。例如,一个负责分拣包裹的自主机器人需要在3D模拟中进行训练,这些包裹在物理接触时移动和反应,就像在现实世界中一样。
在AI的推动下,协作式3D和工业数字化的时代正在到来。黄仁勋还认为,未来的工厂将是机器人工厂,“机器人协调一大堆机器人来制造本身就是机器人的汽车” “我们希望AI能够进行自我编程。”
“未来,整个工厂将由软件定义。”黄仁勋称。
作为这一波“生成式AI”浪潮中最重要的“基建”公司,英伟达股票已经在最近暴涨 200%,一度突破万亿美元大关。
而在售卖“核弹”硬件之外,在软件、云计算和平台以及生态方面,英伟达同样不遗余力,因为只有让生成式AI真正进入到工业生产和办公中,才算是真正实现“AI普惠”。而从这个角度来看,英伟达和现在的AI初创公司,以及正在向生成式AI转型的传统公司,其实在一条船上。
“买更多,省更多”,而只有“更多AI”,英伟达才能保证自己“越赚越多”。