GTC2025信息脑图
- 片头
- Token开拓了新边界:突出了token与物理世界的联系
- Geforce 5090显卡开场
- GTC的渊源从Geforce开始:Geforce带来CUDA,CUDA促进AI,AI反过来促进计算机图形学
- AI促进计算机图形学的范例:对每个像素预测15个像素,并保持时间稳定性
- AI的历史
- 感知式AI:计算机视觉、语音识别
- 生成式AI:在多模态之间转换
- 除了文本、图像、视频,还包含氨基酸到蛋白质、特性到化学物质
- 从检索式计算模型,转变为生成式计算模型。以前都是预先创建多个版本的内容。现在不再检索数据而是生成答案,根本上改变了计算方式
- 自主智能AI:具备自主性(has agency)的AI
- 能推理如何解决,并能采取行动。
- 物理AI:能理解物理世界,如摩擦、惯性、因果
- 对于Nvidia合作方的意义:每个阶段都开启了更多机遇,更大的图景诞生了更多的合作方
- 贯穿AI每个阶段的三个基本问题
- 问题1:数据问题
- 人类历史已经积累了数百问题空间,生成数百万个不同示例。如勾股定律、数独、益智游戏。这些会生成万亿个token
- 问题2:训练问题
- 无需人工干预,借助强化学习生成
- 问题3:规模化问题
- 投入的资源更多,AI越聪明。
- 今年预估的资源比去年这时候预期的要多至少100倍
- 为什么需要更多资源的逻辑
- 过去:ChatGPT采取了“一击即中(One Shot)”的方式,所以回答问题很可能会出错,效果不佳
- token数增加:现在不仅生成一个个token或单词,而是生成代表推理步骤的单词序列,生成token数大幅增加
- 步骤增加:推理,可能会尝试多种方法后选择最佳方法,可能会用多种方法解决后做一致性检查,可能得出答案后将答案代回方程验证正确性。
- 计算时效性要求不变,因此计算速度需要提高
- 数据证明:四大云服务运营商的Blackwell和Hooper出货量对比
- 问题1:数据问题
- AI工厂
- 变化趋势:增长加速、软件的未来需要资本投入
- 手工编码的通用计算到了尽头。计算机成为了软件token生成器,而非文件检索工具。
- 将生成的token重构为音乐、文字、视频、研究成果、蛋白质
- 软件栈:各行各业的900多个CUDA-X库,实现计算加速
- 在CUDA上还有各行各业的AI库(物理学、生物学、光刻)来搭建AI框架,提供感知、学习、推理能力
- 每个工厂需要两个“工厂”。例如一个工厂制造晶圆,另一个工厂制造晶圆所需的信息
- 行业1举例:光刻
- 行业2举例:无线网络通信(5G)
- 行业3举例:基因测序分析
- 行业4举例:计算机辅助工程(CAE)
- AI对于各行业
- 云服务商(CSP):GPU云,托管GPU
- 边缘计算:6G无线网络 AI-RAN
- 价值:通过上下文和先验知识,改善不同环境下的大规模MIMO(多输入多输出)。(原理类似前文的像素点预测)
- 自动驾驶
- 制造3种计算机:训练、仿真、自动驾驶
- HALOS:汽车安全。对每一行代码安全评估。
- Cosmos + Omniverse:AI创造AI,包括模型蒸馏、闭环训练(由Cosmos评分)、合成数据生成(Omniverse神经重建技术,将日志转为4D驾驶环境,并创建变体)
- 数据中心
- 前提:未来每个数据中心都会受到电力限制
- 向上扩展(Scale Up)
- 在横向扩展(Scale Out)之前,先需要向上扩展(Scale Up)
- 难点:无法使用类似Hadoop的方式复用现有服务器,电力成本会过高。
- Blackwell的硬件设计
- Blackwell源于Range。
- 上一代Scale Up的极限:HGX。8个GPU,连接到NVLink 8交换机。然后通过PCI Express连接到CPU机架,最终形成AI超级计算机。
- Range在HGX的基础上扩展了4倍,对接NVLink 32。Range证明方向正确,但规模过大。于是进行了重新设计。重构方式:解构了NVLink,放在机箱中心
- 强大的计算能力是用于解决看似简单的终极问题:推理
- 为什么推理是终极问题:工厂所依赖的推理的效率决定了工厂的盈亏。工厂生成的token越多,AI越能给出聪明的答案;但时间过长会贻误时机。
- token数与响应时间依赖大量计算能力,所以就需要Blackwell
- 数据证明:安排婚礼座位,传统LLM采用one shot,消耗了439个token,得到了错误的答案(白白浪费了token);DeepSeek R1会尝试不同场景,返回检验答案,最终消耗了8559个token,得到争取到的答案。即20多倍的token数,150多倍的计算量
- NVLink的价值:为什么推理需要NVLink:
- DS R1运行时,需要将工作负载(数万亿个参数和模型)分布到整个GPU系统中。Blackwell的NVLink 72架构的优势在于每个GPU都可以执行推理所需的批处理和聚合。
- 预填充阶段:推理模型需要进行思考、进行阅读网站和看视频以消化信息,这些信息消化和上下文处理非常依赖浮点运算。
- 解码阶段:需要浮点运算更需要巨大带宽。数万亿个参数输入,每秒TB级的数据仅仅为了生成一个token。
- Dynamo(直译为发电机):AI工厂的操作系统
- 需求:支持动态分配不同的GPU数量给预填充和解码,动态适应思考(更需要预填充)和聊天(更需要解码)等不同场景的需求
- 为什么称之为操作系统:以前操作系统是协调应用程序运行。未来是协调Agents智能体
- Blackwell对AI工厂的价值估算
- Blackwell + Dynamo + NVL72 + FP4:在最大吞吐率和最高质量之间寻找平衡点。
- Blackwell方案的ISO功耗是Hooper的25倍。对于一个数据中心,Blackwell的token生产效率是Hooper的40倍,每秒生成12,000,000,000个token
- 未来规划:Blackwell Ultra、Vera Rubin(2026)、Rubin Ultra(2027)
- 在横向扩展(Scale Out)之前,先需要向上扩展(Scale Up)
- 横向扩展(Scale Out)
- 挑战:收发器会消耗大量能源,将电信号转换为光信号
- 25万个GPU中的每一个都需要6个收发器,使每个GPU增加180瓦的能耗
- 解决方案:共封装光学(CPO)
- 基于微环谐振器调制器(MRM),解决如何扩展到数百万个GPU的问题
- 最终方案:将硅光和光电一体化封装方案结合,不再需要收发器,光纤直接连入512端口交换机,节省数十兆瓦的能量。
- 未来规划:下一代产品命名为Feynman
- 挑战:收发器会消耗大量能源,将电信号转换为光信号
- 企业计算
- AI与机器学习重塑了计算机技术栈:处理器、操作系统、应用程序、应用的运行方式、编排方式都不再相同
- 范例:对数据将不再精确检索,而是阅读并尝试理解,直接给出答案
- 未来的个人电脑:DGX Station工作站
- 计算机三大支柱:计算、网络、存储
- 重新设计存储:不再是基于检索的存储系统,而是基于语义。只需要与之交互。
- AI与机器学习重塑了计算机技术栈:处理器、操作系统、应用程序、应用的运行方式、编排方式都不再相同
- 机器人技术
- 背景:全世界缺少5000万个工人
- 三大基础问题同样适用
- 数据问题:互联网规模的数据提供了常识和推理能力。基于Cosmos + Omniverse生成海量合成行动和控制数据。
- Omniverse:物理AI操作系统
- Cosmos:理解物理世界。用Omniverse调节Cosmos,用Cosmos生成无限数量的环境
- 训练问题:
- Newton:能训练触觉反馈、精细动作的物理引擎。将物理定律作为可验证奖励。
- 规模化问题:
- Nvidia Isaac Groot N1:人形机器人通才基础模型
- 双系统架构,用于快思考和慢思考。
- 慢思考用于感知和推理,规划行动
- 快思考转化为精确而连续的动作
- 泛化能力:操作常见物体、协同执行多步骤
- 双系统架构,用于快思考和慢思考。
- Nvidia Isaac Groot N1:人形机器人通才基础模型
- 数据问题:互联网规模的数据提供了常识和推理能力。基于Cosmos + Omniverse生成海量合成行动和控制数据。
感受
GTC2025演讲内容的逻辑性
老黄的演讲中的确不乏画饼的成分,以部分抵消DeepSeek对于Scaling Law的挑战。不过对于我们有价值的,还是他是如何从逻辑上说圆自洽。
- 为什么投资者还应该继续看好Nvidia:我们处于时代拐点
- 什么时代拐点:已经从生成式AI进入了自主能推理的AI,并向物理AI时代进发
- 自主推理AI与Nvidia有什么关系:推理产生更多的token,要求更高的计算速度
- 自主推理AI带来的革新:计算机将变成token生成器,token与物理世界关联
- 为什么token能与物理世界关联的基础:各行各业的CUDA-X
- Nvidia如何支撑产生更多的token:新技术Blackwell和CPO
reinvent computer
演讲中个人觉得最有意思的部分莫过于重新定义了计算机,类似乔布斯reinvent phone,老黄也在宣言reinvent computer。
- 对计算机的使用方式变了:从检索数据到交互式提问
- 开发应用程序变为了编写和编排智能体
对于新的应用程序开发模式,是否有更加适合的开发工具和开发方式?
更核心的转变是通过token的多模态转换,将token变成了计算机科学中的0和1,构成万物的原子。
虽然数字孪生的概念提出很多年了,但从物理AI的概念中看到了真正实现的可行性。
对于云计算的影响
是否会淘汰一部分云计算产品,新诞生无需与人交互,专供AI和机器学习使用的云计算产品?
对于Omniverse生成的多模态数据,是否有更适合存放的数据库?
对于AI生产的海量数据存放,是否云存储有更高效和低成本的存放方式?