(报告出品方/作者:浙商证券,刘雯蜀、刘静一、李佩京)
商业逻辑——为什么AI算力租赁具有商业价值
GPU多重参数影响大模型训练效果
单卡运算性能、显存和传输效率是影响GPU训练大模型效果的三个关键参数 。从算力供给侧来看,单卡每秒运算次数、显存、传输效率从三个维度共同影响大模型的训练效果。
从模型需求侧来看,模型参数规模、训练数据集规模、训练批次大小以及模型训练方式决定了模型训练所需的总计算次数、训 练和推理阶段所需的显存大小,从而进一步决定了大模型训练所需最少GPU数量以及模型训练时间。
英伟达A100-SXM和H100-SXM为目前训练大模型的首选GPU。英伟达GPU根据使用场景分为多种类别,其中以RTX4090等为代表的消费级显卡主要用于游戏场景,以Tesla T4等为代表的工 业级显卡主要用于图形处理和人工智能推理领域,而以V100、A100、H100等为代表的加速计算卡主要用于人工智能训练场景。 英伟达2017年5月将Tensor Core引入V100,大幅提升GPU进行混合精度矩阵乘加运算的速度,可大幅缩短AI场景下大规模矩 阵计算的时间,为人工智能场景下的加速计算奠定了基础。随着模型参数的增加,对于GPU运算性能以及通信传输性能的逐步提升,目前搭载NVLink和IB网络的A100-SXM和H100- SXM成为大模型训练的首选GPU。
AI算力租赁业务应运而生
AI算力租赁业务聚焦于解决大模型训练的算力需求,连接多方资源。 AI算力租赁业务产生的两个催化条件:1)可用于大模型训练的算力资源和大模型训练需求供需失衡,短期算力需求远高于算 力供给(尤其针对用于大模型训练的英伟达A100-SXM和H100-SXM两类GPU);2)时间对于大模型研发厂商而言是较为稀 缺的资源,即先行完成大模型研发的厂商有望获得更多的先发优势。 AI算力租赁的商业本质为具有大模型训练需求的软件研发厂商向具有GPU资源的厂商租赁GPU算力,按月或按年支付租金, 市场上常见的租金计量方式包括:1)按整台服务器租赁(每台服务器含8张GPU),租金按照每台每月计量;2)按算力规模 租赁,租金按每P每年计量;3)按单张GPU租赁,租金按照每GPU每小时计量。以上三类计量方式可相互换算。
AI算力租赁潜在需求规模
地方政府是AI智算中心建设的主要规划与投资方。 根据IDC圈,全国有超过30个城市正在建设或规划智算中心,其中一些已经投入运营或即将投入运营,总规划算力达到了数十 EFLOPS。若假设未来全国智算中心算力达到50EFLOPS(对应50000PFLOPS),对应AIDC建设规模空间为500-750亿元。 据不完全统计,目前已经明确公开宣布规划或建设中的地方智算中心规模已超26000P(统一换算成FP16口径)。
对标GPT-3和GPT-4模型,算力需求非线性增长,受限于显存,单卡算力的升级不会减少模型训练所需GPU的数量。GPT-3模型训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100 服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,但用于训练的GPU数量增加了 近24倍(且不考虑模型训练时间的增长)。短期来看,我们考虑国内15家头部大模型厂商对标GPT-3模型的训练需求(百度、腾讯、阿里、字节、京东、美团、讯飞、网 易、360、商汤、云从、百川、智谱、minimax、深言),则需要1920台A100/A800服务器(考虑到A100和H100的单卡显存 容量相同,使用H100理论上也需要相同数量的服务器,但可以大幅缩短训练时间),对应15360张GPU。 长期来看,我们考虑国内5家头部大模型厂商对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11 万张GPU。
盈利模型——AI算力租赁业务的盈利能力
收入端
支持NVLink传输的A100算力资源主要集中在互联网大厂,但仍较为稀缺。从供给端来看,各大云厂商尚未推出基于H100/H800的云端GPU实例,目前的可租用资源以A100为主,但支持NVLink传输以 及单卡达到80GB显存的GPU算力资源,目前只有火山引擎能提供可供租用的资源。从价格来看,GPU的租金价格随着配置性能的提升呈现上升趋势(不考虑CPU、存储等其他参数的影响),其中单就A100算 力而言,最高配置约为最低配置价格的1.8倍。
成本端
AI算力租赁业务的运营成本主要包括设备折旧、数据中心日常运营、以及人员成本,其中设备折旧为非现金支出。设备折旧:设备折旧在AI算力租赁成本中占比最高,其中既包括 服务器也包括网络设备等,且设备折旧年限对毛利率影响较大。仅以服务器为例:以市场7月A800服务器成交价140万元 为例,若按3年摊销对应月折旧成本约为3.9万元,按5年 摊销对应月折旧成本约为2.3万元,参考市场8卡A800- 80GB-NVLink实例月租金14.6万元,对应成本占比分别 为27%和16%,对毛利率影响11pct。数据中心日常运营:主要包括数据中心运营所需的成本以及部分 情景下对于机房改造的成本。数据中心运营:能源功耗成本(水电等)、散热成本、房 屋租金成本等。数据中心改造成本(或有):英伟达DGX H100服务器系 统功耗约为10.2kW,而传统数据中心每个机架的功耗约 7kW,故而若采用H100/H800建设AI算力集群,还需对传 统数据中心机房进行改造。人员成本:参考奥飞数据2022年报,人工成本在IDC服务业务成 本中占比约3%,占IDC服务收入比例约2%。
相关标的——哪些上市公司在布局AI算力租赁
布局算力上市公司分类
布局AI算力的上市公司可分为四类:IaaS云服务厂商:包括BBAT及三大运营商等云计算Iaas服务商,其中头部互联网厂商高端算力资源更充足。传统IDC服务厂商:从传统IDC服务业务切入,在数据中心建设运营和能耗成本方面更具有优势。 AI算力用户向上游扩张:由AI算力需求方延伸为AI算力供给方,天然具备应用场景,AI算力运维能力可复用提升投入产出比。跨界布局第二生长曲线:传统主业保持平稳或增长乏力,布局AI算力以期拉动业绩增长。
上市公司布局算力租赁的业务模式
从建设方式来看,分为自建和共建;从经营方式来看,分为自用和出租。具备AI训练需求和AI应用场景的公司以自建AI算力中心为主,以头部互联网公司、AI算力用户为代表,且所建设的AI算力以满 足自身业务需求为先,其次再为提供给外部客户使用。此类模式一方面可提升公司算力基础设施的利用效率,另一方面也可基 于软、硬件实力构建生态圈,赋能合作伙伴。 主业涉及算力中心产业链条的公司以共建AI算力中心为主,以运营商、独立IaaS云服务商、传统IDC服务厂商为代表,合作对 象主要为政府(或政府授权的公司主体)。此类模式受益于政策红利以及政府支持,区域属性较强。跨界布局第二生长曲线的公司业务模式相对更加灵活,各类业务模式均有涉及,在共建模式下合作方也更加多元。
海外映射——GPU云
海外云厂商纷纷入局AI计算资源军备战
短期来看,海外云厂商大量囤积英伟达A100/H100芯片;长期来看,头部厂商推进自研AI芯片。根据硅谷风投机构A16Z,生成式AI所产生总收入的10%~20%最终流向了云服务商。短期来看,英伟达A100和H100芯片是大模型训练与推理的最佳选择,生成式AI爆发之后,云服务商对于英伟达GPU的采购 进一步加大。长期来看,头部厂商加速推进自研AI芯片计划,削减英伟达的“GPU税”。如谷歌、亚马逊、微软先后在内部启动自研AI芯 片项目——谷歌的TPU系列,亚马逊的Inferentia和Trainium系列,以及微软的Athena芯片,但从通用计算数据中心到加速计 算数据中心的过渡仍需要一定时间。
英伟达DGX Cloud
英伟达DGX Cloud是为客户打造的“软硬件一体及服务”,售价为每实例3.7万美元/月起。DGX Cloud是2023年3月英伟达推出的一项人工智能超级计算 服务,可以让企业快速访问为生成式人工智能和其他开创性应 用训练高级模型所需的基础设施和软件,价格为每实例3.7万美 元/月起 。 与传统购买英伟达AI服务器相比,DGX Cloud还提供丰富的软 件栈服务,如Base Command Platform(基础命令平台)、AI Enterprise、AI Foundations等,可为客户提供全面的AI算力支 持及解决方案。Base Command Platform(基础命令平台)是一个管理 与监控软件,不仅可以用来记录云端算力的训练负载, 提供跨云端和本地算力的整合,还能让用户直接从浏览 器访问 DGX Cloud; AI Enterprise是英伟达 AI 平台中的软件层,高达数千个 软件包提供了各种预训练模型、AI 框架和加速库,从而 简化端到端的 AI 开发和部署成本;AI Foundations是模型铸造服务,让企业用户可以使用 自己的专有数据定制属于自己的垂直大模型;
微软 Azure
持续布局AI软硬件,提升产品竞争力。从Bing Chat,到跨Microsoft 365应用程序组合的CoPilot内容创建体验,使用GitHub Copilot进行自然语言编码等等,现在这些 大型语言模型都在Azure中运行。Azure OpenAI 服务提供对GTP-4、 GPT-3、Codex 和 Embeddings 模型的访问权限。 Microsoft Azure 和 NVIDIA 使云中的企业能够利用 NVIDIA 加速计算和 NVIDIA 按需网络的组合功能,以满足人工智能、机器 学习、数据分析、图形、虚拟桌面和高性能计算 (HPC) 应用程序的各种计算要求。客户可在Azure上使用ND A100 v4 VM、 NDm A100 v4 VM、NC A100 v4 VM、NV A10 v5 VM四类NVIDIA GPU虚拟机以满足不同情景下的需求。
甲骨文 OCI
凭借AI算力布局加速赶超,云基础设施IaaS收入连续多个季度增长超过50%。Oracle Cloud Infrastructure (OCI) 在一个全球云平台上提供 100 多个云服务和先进的行业特定 SaaS 应用。甲骨文公司与英伟达 (NVIDIA) 合作持续加深: 全新的 Oracle 云基础设施远程软件服务(Oracle Cloud Infrastructure, OCI)Supercluster™ 上运行战略性 NVIDIA AI 应用。 英伟达选择 OCI 作为该企业的超大规模云技术提供商,提供大规模的AI超级计算服务 NVIDIA DGX Cloud™。 英伟达基于 OCI 的 DGX Cloud 提供生成式 AI 云服务 NVIDIA AI Foundations。
国内算力租赁市场的未来——向云之路
GPU云是算力租赁业务的长期进阶方向,具有更高的价值量和技术壁垒,市场想象空间更大 。算力租赁业务的本质是AI算力固定资产变现,就其商业模式而言,可挖掘的增量价值空间有限: 从收入端来看,AI算力的出租价格受到市场供需关系以及市场竞争的影响:供不应求时,AI算力租赁厂商具有较 高的议价权;而当算力资源紧缺程度缓解之后,AI算力租赁厂商议价权减弱,存在租金下行的风险 。从成本端来看,给定算力租金水平和折旧年限,AI算力租赁的毛利率基本固定,可提升空间有限:由于AI算力租 赁的成本由设备折旧摊销、数据中心能耗成本、人工运维成本构成,对于大部分成本AI算力租赁厂商处于被动接 受的状态,议价能力弱 。基于以上,我们认为算力租赁业务的利润规模量级基本由投资规模决定,增厚利润的最有效方式为增大投资,扩 张算力规模。
GPU云的本质是算力资源分配优化,同时提供AI软件开发相关的增值服务,壁垒高且易行程规模化优势: 从收入端来看,给定算力规模和算力租金水平的情况下,算力的调度和优化能力可进一步增加GPU云厂商的收入 天花板;同时,围绕AI软件开发相关的增值服务(PaaS层或SaaS层),可为GPU云厂商额外贡献增量收入,且 收入天花板不受到算力规模的限制。从成本端来看,算力调度与软件增值服务的研发投入体现在费用端,随着对应营收规模的增长,盈利能力有望持 续提升。基于以上,我们认为GPU云相较于算力租赁业务而言具有更高的技术壁垒以及成长性,我们看好AI算力租赁厂商 向GPU云的迭代转型。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
获取精品报告请登录【未来智库】。
立即登录请点击下方图片进入“未来智库”小程序。