00:12:25
全球数据中心运行的前沿AI模型,如GPT、Grok、Claude和Gemini,拥有一个共同需求——巨大的能源。要理解其能源需求的规模,我们需要从剖析训练一个大型语言模型(LLM)开始,进而审视整个行业。
由于大多数私营公司不公布其AI模型的确切能耗数据,我们以通过估算可部分了解的OpenAI GPT-4作为分析样本。
据估算,拥有1.7万亿参数的GPT-4,其预训练过程处理了约13万亿个令牌(tokens),需要执行约20*10²⁴(20 septillion)次浮点运算。为了完成这项壮举,OpenAI可能动用了高达25,000块Nvidia A100 GPU,持续训练了约3个月。
关键数据点:
让如此庞大的GPU集群协同工作,核心挑战在于高效的并行化训练策略。这类似于指挥25,000名厨师同时制作一道大餐,需要精密的组织。
AI训练的核心是矩阵乘法(Matrix Multiplications)运算。对于大型语言模型,通常采用三种并行策略:
通过组合这些策略,一个GPT-4实例理论上可在120块GPU上运行。OpenAI的25,000块GPU因此可以创建约200个模型复制品并行训练,充分利用所有计算资源。
基于上述计算框架,我们可以估算GPT-4训练的总能耗:
计算得出,总能耗约为44,000兆瓦时(MWh),即44吉瓦时(GWh)。这个量级相当于一个约5万人口的小城市一个月的总用电量。
值得注意的是,还需考虑数据中心的冷却开销,通常用电力使用效率(PUE)衡量。若PUE为1.2,实际总能耗将增至约52.8 GWh。
训练只是故事的一部分。将训练好的模型部署上线(推理)供用户使用,其长期能源需求可能远超训练阶段。
以ChatGPT为例:
据此计算,单日推理能耗就高达750兆瓦时(MWh)。服务90天的总推理能耗估算约为67吉瓦时(GWh)(考虑PUE后则超80 GWh),已高于其训练总能耗。况且AI公司通常需同时维护和服务多个模型版本,进一步推高总能耗。
2023年,全球数据中心总耗电约176太瓦时(TWh),占美国总用电量的4.4%。预测到2030年,这一比例可能攀升至8-10%,AI是重要推手。
为满足激增的能源需求,科技巨头各显神通:
然而,在美国,这些项目常面临地方监管、环保质疑和基础设施承压等挑战,导致许可受阻甚至法律诉讼。
对比之下,中国的能源建设更多地由国家层面 centralized 主导。2023年,中国新增光伏装机609吉瓦,风电装机441吉瓦,并有27座核反应堆在建,能源产能快速扩张,被视为可能在AI竞赛中提供强大的能源基础保障。
尽管能源需求巨大,但其并非创新的唯一瓶颈。以下技术有助于降低AI的能源成本:
但最终,充足、稳定的能源供给——包括更多发电能力、更强大的电网和更高效的芯片冷却系统——将是支撑AI持续创新的底层基石,并可能影响全球AI竞争的最终格局。