近日,市场研究机构LightCounting在****报告中指出,争夺人工智能“霸主”地位的竞赛已经开始,担心被落下的“恐惧”正在推动大量人工智能投资。Meta最近在财报电话会议上明确说明了这种情况:“我们不知道这些由人工智能驱动的应用会以多快的速度扩展,我们希望有足够的能力来应对它们的快速扩展。”
有多少资金正在投入人工智能基础设施尚不明确,但是英伟达在2023年4月的财报电话会议中给出了一些暗示。英伟达预计2023年第二季度的收入将环比增长50%,主要得益于面向AI集群的GPU的销售。
没过多久,金融分析师们就将GPU的销售与光模块的销售联系起来,并得出了非常高的数字。其中一些报告预计,未来5年光模块的累计收入将达到1000亿美元或更多,而这仅仅是针对人工智能应用的收入。
下图是LightCounting对以太网光模块销售的预测,包括人工智能集群光连接对该市场贡献的估计。未来5年,用于人工智能集群的光模块销售总额将达到176亿美元,考虑到同期所有其他应用场景的以太网光模块285亿美元的销售额,这的确是一个非常庞大的数字。
这并不完全令人意外。早在2019年—2020年,谷歌就报告称在其人工智能集群中部署了比其他数据中心基础设施更多的光器件。LightCounting估计,2022年在人工智能集群中部署的光模块已经占到整个市场的25%,而这还不包括有源光缆(AOC),后者是英伟达系统中光连接的主要解决方案。
人工智能市场份额的提升还得益于计算集群和支持计算集群的光器件投资的减少。ChatGPT在2022年底成为头条新闻的时机再好不过。对即将到来的经济衰退的担忧,以及营收增长放缓的迹象初现,迫使所有****的云计算公司削减开支,包括对数据中心的投资和光模块的采购。
Meta将2023年部署200G FR4光模块的预算削减了50%以上。在其****的财报中,该公司宣布今年的资本开支将再减少10%。尽管如此,该公司仍计划增加在人工智能集群和支持人工智能集群的400G FR4光模块的支出。
最后但同样重要的是,英伟达人工智能系统的新设计需要更多的光器件。该公司在一年多之前就宣布了NVLink,旨在实现800G的光连接。LightCounting在一份研究报告中指出,与InfiniBand相比,NVLink支持的GPU到GPU连接需要更多的带宽。目前的估计表明,带宽要高出6倍。
英伟达之前设计的所有系统都使用InfiniBand进行光连接,这些网络大多是AOC。例如,LightCounting估计去年部署的HDR (200G) InfiniBand系统需要超过50万个200G AOC。这些系统的销售将在2023年激增,可能需要多达100万个200G AOC和类似数量的200G铜缆。
现在,基于NDR(400G)InfiniBand的****系统的销售正在逐渐增长。这些系统将主要使用可插拔的400G SR4以太网光模块,而不是用于InfiniBand连接的AOC,以及用于NVLink网络的800G SR8光模块。
假设NVLink网络需要的带宽是InfiniBand的6倍,一旦新系统的部署数量与当前基于HDR的系统相当,将需要200万个400G SR4光模块(每个AOC相当于两个光模块)和600万个800G SR8光模块。需要注意的是,这不会在今年发生,而可能在2024年或2025年发生。
与此同时,并非所有系统都将使用InfiniBand和NVLink连接,这对于非常大的GPU阵列最有利。而许多设备的规模将较为适中,主要依靠铜缆进行布线。
谷歌正在使用TPU而不是GPU,但它也在使用直接光连接来构建非常大规模的阵列,达到数万个TPU。这对于谷歌来说并不是新鲜事,这就是为什么在2019年—2020年期间它在其AI集群中部署了大量光器件的原因。最近,谷歌还增加了部署800G FR8光模块的计划。 |