可能是黄仁勋信息量最大的采访
2024-03-14

|

859

导语

黄仁勋这次斯坦福两场演讲,后一场信息量贼大

黄仁勋这次斯坦福两场演讲,后一场信息量贼大,把英伟达基本面最核心的几个点基本都带到了,摘出了重点,给大家节省脑带宽。

  • 加速计算本质?

  • 未来的模型训练什么样?

  • 推理芯片的竞争?

  • ASIC的竞争?

  • 何时实现AGI

  • AI需要多少半导体产能?

  • 英伟达为什么做ASIC?

关于加速计算本质

如果我一生中认为最大的技术发展突破,那就是晶体管,但它所实现的最大能力是软件,是人类以可重复的方式在计算上表达我们的想法和算法的能力。我们在过去致力于一种新的计算形式,称为加速计算。

通用计算并不适合每一个工作领域,所以我们说为什么不发明一种新的计算方式,解决通用计算不擅长的问题,并且有效地将计算机的计算成本降低到接近零,当你能够将某物的边际成本降低到接近零时,我们就能以一种新的方式做软件,过去是人类编写,现在计算机编写,因为计算成本接近零。所以你可以让计算机去找到代表人类知识的关系和模式。

这个奇迹大约在十年前发生了,我们看到了这一点,推动了这一点,将计算机的边际成本降低到零。在过去的10年里,我们将计算成本降低了100万倍。很多人说,但如果你能将计算成本降低100万倍,人们花的钱自然会更少,这恰恰相反,我们发现如果我们能将计算的边际成本降低到接近零,我们可能会用它来做一些非常惊人的事情,需求反而显著增长。

我们售卖的H100服务器是世界上最昂贵的计算机,每片芯片售价2万多美元,但它所取代的系统的电缆成本就超过了芯片价格。这就是我刚刚解释的,我们把整个数据中心压缩成了这一片芯片。

关于未来的模型训练

现在我们训练模型然后应用模型,再训练、再推理,在未来,我们将有持续的训练,甚至我们可以选择是否把训练的结果部署到应用中,甚至AI通过观看视频和文本,从所有的互动中,不断地自我改进学习过程和训练过程。推理过程、训练过程、部署过程、应用过程将变得一体,这就是我们正在做的。

你会发现一直在训练和推理,这种循环将是持续的。强化学习将基于真实世界数据,这些数据是通过互动以及我们实时创造的合成数据获得的,计算机会一直在想,这是否有道理?

像当人类学习时,通过信息片段,然后从第一原则出发,就开始在大脑中进行模拟和想象,那个未来的想象状态以现实的形式呈现给我们。所以,未来的AI计算机也会做类似的事情,它会合成数据,再进行强化学习,再继续以真实世界的经验为基础,它会想象一些事情,然后用真实世界的经验来测试,整个循环就是一个巨大的循环。这就是当你能够将计算成本降低到接近零时,会发生的事情。

关于推理芯片的竞争

今天无论你使用ChatGPT,还是Co-pilot,service now,Mid-Journey,或者Adobe的Firefly,都在进行推理,背后的100%几乎都是用的NVIDIA的GPU,且大多数英伟达被使用的场景也已经变成推理,今天世界上几乎所有的推理都是NVIDIA。

现在大家讨论,推理难还是容易?

当你看训练时,你会觉得那看起来太难了,我不会去做,我只是一个芯片公司,但这个系统它看起来根本就不像芯片。只是为了证明新东西是否有效,你就要先投入20亿美元,然后你启动了它,发现可能并不能工作。你投入了20亿美元和两年时间,就为了证明它不work。

探索新事物的风险对客户来说太高了。所以很多竞争对手倾向于说,那我们不做训练芯片,我们做推理芯片。那我现在告诉你,推理芯片非常难。你以为,推理的响应时间必须非常快,但这还算简单的,因为这是计算机科学部分,算是容易的部分。难得部分是,推理的难点在于,部署推理的人的目标,是吸引更多的用户,将该软件应用于庞大的安装用户基础。

因此,推理是一个关于安装基础的问题,这与在iPhone上线APP是一样的,他们选择iphone开发APP的原因是iPhone有一个如此庞大的安装基础,几乎每个人都有一部,所以如果你为那部手机编写了一个应用程序,将受益于它的用户量,能够惠及每个人。

换成Nvidia的背景板,我们的加速计算平台CUDA是唯一一个真正无处不在的加速计算平台,因为我们已经在这方面工作了很长时间。如果你为推理编写了一个应用程序,并且你将模型部署在Nvidia架构上,它可以在任何地方运行,所以你能够触及每个人,模型能够产生更大的影响力。所以推理的问题实际上是安装基础问题,这需要巨大的耐心和多年的成功、以及对架构兼容性的持续贡献。

关于ASIC的竞争

我们不仅有来自竞争对手的竞争,我们还有来自客户的竞争(云厂),而且我是他们眼中唯一的竞争对手。

而且我们明明知道客户即将设计一款芯片来取代我们,我还要继续向他们展示我目前的芯片、下一代的芯片,以及之后的芯片,各种秘密。

这样做的原因是,你要常识让他们相信你在这个领域是最好,他们才会不得不选择你。因此,我们都是完全透明的。诚然你可以为特定的算法构建一款优秀的芯片(ASIC),但记住,计算不仅仅是关于transformer,更何况我们正在不断地发明新的transformer变种,除此之外,软件的种类非常丰富,因为软件工程师就喜欢创造新玩意儿。

Nvidia擅长的是加速计算,我们的架构不仅能加速算法,而且是可编程的,这意味着你可以用它来处理SQL(SQL自20世纪60年代IBM以来就出现了,它是存储计算中非常重要的部分,每几年就有300ZB的数据被创造出来,其中大部分都存储在SQL结构化数据库中),我们可以加速量子物理、加速所有的流体和粒子代码等等广泛领域,其中之一才是生成式AI。对于那些希望拥有大量客户的数据中心来说,无论是金融服务还是制造业等,我们都是一个最棒的标准。我们存在于每一个云服务中,存在于每一个计算机公司中。

因此,我们公司的架构经过大约30年成为了一种标准。这就是我们的优势。如果客户能够有更具成本效益的替代方案,我甚至会为此感到惊讶。原因是,当你看到现在的计算机时,它不像笔记本电脑,它是一个数据中心,你需要运营它。因此,购买和销售芯片的人仅仅考虑的是芯片的价格,而运营数据中心的人考虑的是整个运营成本、部署时间、性能、利用率以及在所有这些不同应用中的灵活性。

总的来说,我们的总运营成本(TCO)非常好,即使竞争对手的芯片是免费的,最终算下来它也不够便宜!我们的目标是增加如此多的价值,以至于替代品不仅仅是关于成本的问题。当然,这需要大量的努力,我们必须不断创新,我们不能对任何事掉以轻心。我本来希望不要听起来太有竞争性,但约翰问了一个竞争问题,我以为这是个学术论坛....这触发了我的竞争基因,我道歉,我本可以更艺术地处理这个问题。(哄笑)

什么时候我们能实现AGI?是50年后还是5年后?

我会给出一个非常具体的答案,但首先让我告诉你一些正在发生的非常令人兴奋的事情。

首先,我们正在训练的这些模型是多模态,这意味着我们将从声音中学习,从文字中学习,从视觉中学习,就像我们所有人一样,看电视并从中学习。这很重要,因为我们希望AI不仅仅是基于人类去grounded,当然这是ChatGPT真正创新的地方,也就是RLHF。但直到强化学习,人类将AI都锚定在我们认为好的人类价值观上。现在,你能想象,你必须生成图像和视频,AI知道手不会穿透讲台,踩在水上时你会掉进去,所以现在AI开始锚定在物理上。现在,AI观看大量不同的例子,比如视频,来学习这个世界被遵守的规律。它必须创建一个所谓的世界模型。所以,我们必须理解多模态性,还有其他模态,比如基因、氨基酸、蛋白质、细胞等等。

第二点,就是AI会具有更强更强的推理能力,我们人类所做的很多推理,都编码在常识中。常识是我们所有人类认为理所当然的能力。

互联网上有很多我们已经编码好的推理和知识,模型可以学习。但还有更高层次的推理能力,例如现在你问我问题,大部分的问题,我的确像生成式模型一样快速生成,我不需要太多的reasoning,但有些问题,我需要想想,也就是规划planning,“很有趣,让我想想”,我可能是在脑海中循环它,我提出了多个计划,遍历我的知识树tree和graph,修剪我的树,“这个没有意义,但这个我可以去做”也就是我会在脑海中模拟仿真运行它,也许我会做一些计算等等。

我的意思是,今天的很多“long thinking”,AI并不擅长。你输入到ChatGPT的一切,它都会立即回应。我们希望输入到ChatGPT的某个问题,给它一个目标,给它一个使命,它能思考一会儿。所以,这种系统,计算机科学称之为系统2,或者长思考,或规划。我认为我们正在研究这些事情,你将看到一些突破。所以在未来,你与人工智能的互动方式将会非常不同。有些只是给我一个问题,我会给你答案。有些是说,这里有一个问题,去工作一会儿,明天告诉我。它会做尽可能多的计算。(注:这种算力需求爆炸了...别算一句话平均多少token了...甚至人均多少token都是没意义的) 

你也可以说,我给你这个问题,你可以花费1000美元,但不要超过这个数额,然后它会在明天给出最好的答案。

所以,回到AGI的问题,AGI的定义是什么?事实上,这现在是最先需要回答的问题。

如果你问我,如果你说Jensen,AGI是一系列测试的列表,记住,尤其工程师最明白,任何组织中,你需要有一个规格,你需要知道产品成功的标准,你需要有一个测试。如果我给你一个AI很多数学测试、推理测试、历史测试、生物学测试、医学考试,以及律师考试,甚至包括SAT、MCAT等等,你把这些测试列出来,摆在计算机科学行业面前,我猜在5年内就会在每一个测试上都做得很好。

所以,如果你对AGI的定义是通过人类的测试,那么我会告诉你,五年我们会通过所有的测试。但如果你稍微换一种方式问我,AGI是拥有人类的智能,那么我不确定如何具体定义人类的所有智能,没有人真正知道,因此这很难实现,但我们都在努力让它变得更好。

为了支持AI的增长,需要多少额外的芯片产能?

关于预测,实际上我很糟糕,但我非常擅长基于第一原则推演机会的大小。我不知道有多少FAB,但我知道的是,我们今天做的计算,信息是别人写的、或者由某人创造的,基本上是预先记录下来的。

我说的是每件事,每个字、语音、视频,都是检索式的,有人写好了它并存储在某个地方,然后你去检索它,你知道的每一种模态过去都是这样。在未来,因为我们的AI可以接入世界上所有的最新新闻等,也就是可以检索,它理解你的上下文,意味着它理解你问什么,关键是,大部分计算将是生成式的。

今天的100%内容是预先录制的。如果在未来,100%的内容将是生成式的,问题是这将如何改变计算的形态。所以,这就是我推演这个问题的方式(需要多少芯片),比如我们需要更多的网络吗?我们需要更多的内存吗?

简单说,我们是需要更多的fab。然而,我们也在不断改进算法和处理过程,效率在时间上有了巨大的提升。并不是说计算的效率就是今天这样,因此需求就是这么多。与此同时,我每10年都在提高计算能力一百万倍,而需求却增长一万亿倍,这两者必须相互抵消。(仔细听了3遍,的确是这个数量级...算出来太夸张了,可能万亿只是一种形容方式...)

然后还有技术扩散等等,这只是时间问题,但这并不改变这样一个事实:总有一天,世界上所有的计算机都将100%地改变,每一个数据中心,价值数万亿美元的基础设施,将完全改变,然后在这之上还会建造新的基础设施。

为什么英伟达开始想做ASIC?

我们是否愿意定制化?是的,我们愿意。为什么现在的门槛相对较高?因为我们平台的每一代产品首先有GPU,有CPU,有网络处理器,有软件,还有两种类型的交换机。

我为一代产品建造了五个芯片,人们以为只有GPU一个芯片,但实际上是五个不同的芯片,每个芯片的研发成本都是数亿美元,仅仅是为了达到我们所说的“发布”标准,然后你必须将它们集成到一个系统中,然后你还需要网络设备、收发送器、光纤设备,以及大量的软件。

运行一个像这个房间这么大的计算机,需要大量的软件,所以这一切都很复杂。

如果定制化的需求差异太大,那么你必须重复整个研发过程。然而,如果定制化能够利用现有的一切,并在此基础上增加一些东西,那么这就非常有意义了。也许是一个专有的安全系统,也许是一个加密计算系统,也许是一个新的数值处理方式,还有更多,我们对这些非常开放。

我们的客户知道我愿意做所有这些事情,并认识到,如果你改变得太多,你基本上就全部重置了,浪费了近千亿美元。所以他们希望在我们的生态系统中尽可能地利用这些(减少重置成本)。

最后是几个增量信息:

Marvel业绩会后的callback:公司澄清,预计ASIC在FY4Q25结束时的run rate将远高于之前说的2亿美元/季度,受AI的“显著”推动,预计全年交付远高于8亿美元。

AI项目中有两个项目很重要,其中一个非常大。交换机和DSP产品推进到3nm,以及更进一步的2nm。运营商和企业市场,预计四月季度将是底部,增长将在下半年更加显著地恢复。但提到利润率时又略显保守,又说企业网络和存储的反弹情况还有点不确定。预计下一季度的光学(DSP等)同比增长强劲。

关于HBM4标准放宽,影响Hybrid Bonding,Barclays的分析:

据报道,HBM4的标准已经设定,这可能会推迟混合键合技术的采用。我们本周与韩国内存厂商的会议也表明,采用时间比之前预期的要晚,这可能会推迟HB的采用。科技媒体ZDNET Korea(2024年3月8日)报道,JEDEC已经设定了12层和16层HBM4(下一代高带宽内存)的行业标准,与前一代HBM3的720微米相比,HBM封装的厚度已放宽至775微米。如果属实,意味着16层HBM目前不需要混合键合,可以使用现有的键合技术。

我们最近举办了Besi公司CEO的谈话,他说如果封装高度保持不变,那么这可能会加速混合键合的采用,因为这是在不超出现有高度限制的情况下,从12层增加到16层的唯一方式。

但我们本周与亚洲的ODMs、供应链和半导体公司进行了交流,根据他们的反馈,HBM4最初将是12层,并使用现有技术,意味着内存厂商将探索所有选项,16层的混合键合不是唯一选择,正在与现有技术一起探索。无论JEDEC规格是否有任何变化,看起来HBM4最初都不会采用Hybrid Bonding。当然,高度厚度只是采用HB的一个原因,另一个好处是增加互连密度,也只能通过HB实现,因此继续看到HBM在某个时刻转向HB。

在我们看来,Besi管理层最近一直在试图降低预期,我们预计HBM采用hybrid bonding可能在2025年底。

某行亚洲供应链调研:H100的第四季度销量约为72万颗,预计在第一季度将增加到约81万颗,第二季度预计提高到约85万颗。测试产能预计将在第二季度/第三季度末从每月30万颗增加到40万颗,但增长将是渐进的。在下半年,H/B系列的总产能将从每月40万颗增加到50万颗。供应链尚未获得B100的初步预测,但指出测试通常需要六个月,且已在第一季度开始。

ODMs预计B100的实质性出货要到2024年第四季度末/2025年第一季度初,这比最初预计的第三季度来得晚一些。L系列之前预计在第四季度为30万颗,第一季度为60万颗,现在预计每月约为10万颗,并且在下半年随着NVDA寻找向CN销售的方法,可能会更加稳健。

ODMs谈到了AMD约50万颗的销量,而NVDA为400万颗,代表AMD在2024年的单位份额为11%。这个数字乍看之下似乎有些过于乐观,但ODMs越来越多地谈到了AMD预计在今年下半年推出的新设计。