云服务提供商是否在人工智能基础设施上投入过多资金？历史经验告诉我们什么？

Claude Paugh
5天前
讀畢需時 4 分鐘

人工智能 (AI) 的快速普及促使云服务提供商加大对基础设施的投资。配备 GPU、CPU、存储和内存的大型数据中心正在飞速建设中。但这种投资规模是否合理？云服务提供商是否过度建设了其 AI 基础设施？要了解这一点，我们需要将当前的投资与以往的科技泡沫进行比较，考察硬件的折旧情况，并考虑这些投资的回报周期。

当今人工智能基础设施投资规模

亚马逊云服务 (AWS)、微软 Azure 和谷歌云等云服务提供商已宣布对人工智能基础设施进行数十亿美元的投资。这些投资包括：

数千个专为人工智能工作负载而设计的GPU
用于数据处理的高性能CPU
用于处理PB级数据的庞大存储系统
先进的内存解决方案可加速人工智能模型训练

在自然语言处理、计算机视觉和推荐系统等领域的应用推动下，人工智能服务的需求正在快速增长。服务提供商希望确保自身有能力满足这一需求并保持竞争力。

然而，问题依然存在：相对于当前和近期未来的市场规模而言，这些投资是否过大？

从互联网泡沫中吸取的教训

上世纪90年代末的互联网泡沫提供了一个有益的历史参照。当时，许多公司斥巨资建设互联网基础设施，预期会迎来爆发式增长。很多公司在市场尚未成熟的情况下就建造了大型数据中心和网络。泡沫破裂后，这些投资很多都花了数年时间才收回成本，有的甚至永远无法完全恢复。

从互联网泡沫中可以吸取到的主要教训包括：

产能过剩导致基础设施利用不足。

许多公司生产的产品超过了市场需求，导致资源浪费。

投资回收期长

基础设施投资通常需要 5 到 10 年才能收回成本，甚至可能根本无法收回成本。

技术快速变革

硬件很快过时，迫使公司比预期更早地进行再投资。

如今，云服务提供商面临着类似的风险。虽然人工智能的需求不断增长，但它究竟能以多快的速度扩展规模，充分利用所有新的基础设施，目前仍存在不确定性。

了解人工智能基础设施中的硬件折旧

硬件折旧会影响云服务提供商如何核算其投资并规划收益。不同的组件具有不同的使用寿命和折旧计划：

GPU

通常情况下，GPU的使用寿命为3至5年。人工智能工作负载对GPU的要求很高，这会缩短其有效使用寿命。

CPU

通常情况下，CPU的使用寿命为4至6年。CPU的使用寿命往往更长，但由于技术快速进步，其过时速度也可能更快。

存储系统

折旧周期为3至5年。存储技术发展迅速，老旧系统可能无法满足新的性能需求。

内存（RAM）

折旧周期为3至5年。随着人工智能模型规模的扩大，内存升级也变得十分常见。

由于折旧周期相对较短，云服务提供商必须持续投资以保持基础设施的更新换代。这就形成了一个持续资本支出的循环。

人工智能基础设施的投资回收期有多长？

投资回收期取决于以下几个因素：

利用率

利用率越高，回报越快。硬件利用率低会延缓投资回报。

定价模式

云服务提供商根据计算时长、存储空间和数据传输量向客户收费。激烈的定价竞争可能会挤压利润空间。

人工智能采用速度

如果人工智能工作负载快速增长，基础设施就能更快产生效益。

运营成本

电力、冷却和维护都会增加总成本，并影响盈利能力。

据估计，即使在乐观情况下，云服务提供商也需要 5 到 7 年才能收回人工智能基础设施的投资。这与互联网泡沫时期的投资回报周期类似，但硬件更新换代速度加快也带来了额外的压力。

云服务提供商能否收回这些投资？

答案取决于市场增长和技术发展：

如果人工智能的普及应用继续加速，云服务提供商很可能会收回投资并从规模经济中获利。
如果人工智能增长放缓或停滞不前，服务提供商可能会面临基础设施利用率不足和资产减值的风险。
更高效的人工智能芯片或边缘计算等技术突破可能会改变人们对集中式云基础设施的需求。

云服务提供商通过多元化产品和服务，并投资于能够支持人工智能之外的多种工作负载的灵活基础设施来对冲这些风险。

投资与回报的实际案例

英伟达的GPU已成为人工智能基础设施的基石。云服务提供商批量采购这些GPU，但新一代GPU的快速发布意味着旧型号很快贬值。
谷歌对 TPU（张量处理单元）的投资表明其押注于定制人工智能硬件。虽然 TPU 前期投入成本较高，但它能提供更高的每瓦性能，从而有可能缩短投资回报期。
亚马逊的数据中心旨在支持人工智能以及传统的云服务。这种灵活性有助于分摊成本并降低风险。

这对云人工智能基础设施的未来意味着什么

云服务提供商正在对人工智能的未来进行深思熟虑的投资。他们的投资既体现了信心，也蕴含着风险。需要关注的关键因素包括：

人工智能工作负载增长率
硬件创新周期
定价策略与竞争
边缘人工智能等新兴替代方案

能够平衡投资、灵活性和效率的供应商，将更有利于从基础设施支出中获得回报。