全部-虎嗅网 ( ) • 2024-06-24 08:31

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,题图来自:视觉中国

本文介绍了如何利用AI控制AI算力碳排放,通过强化学习方法优化数据中心的能源消耗和碳足迹。

• 💡 AI算力需求爆发,数据中心需求清洁电力

• 🌱 强化学习模型实现数据中心整体优化

• 🔄 减少碳排放、能耗和能源成本的显著效果

AI的终点是电力。因为数据中心最终要实现可持续发展,净零碳排放,AI的真正的终点是清洁电力。

由于AI大模型的革命性突破,对算力的需求开始爆发。尽管用于AI加速计算的GPU芯片性能进步的速度已经超越了摩尔定律,但仍然无法满足总算力的需求。

  • 18个月,摩尔定律翻倍

  • 12个月,总算力翻倍

  • 6个月,单芯片算力(GPU)翻倍

  • 2-3个月,总算力需求翻倍(训练)

未来推理对算力的需求,将远远超过训练,AWS预计推理将在总算力中占90%。

计算的本质是能源的处理形式,计算过程也是能量转换和使用的结果。从技术上是瓦特驱动比特,而从经济上,就是用电力这种商品的投入,通过AI计算,生成token这种商品的产出。

黄仁勋把英伟达定义为一家AI工厂,它所产生的,是未来经济(第四次工业革命)的基础商品,即以token计量的智能。

目前从美国的科技七雄(M7),到中国的华为、阿里、腾讯、字节、百度等巨头,都建立了十万级至百万级GPU卡的智能算力基础设施。

其中M7和个别中国科技巨头,一直以来也是清洁电力最大的采购方,它们都已经制定了实现碳中和的计划,有的如谷歌和微软,甚至制定出了绝对零碳的计划。

未来的智算中心,本质上是一个绿色算力和清洁电力系统,兼顾算力、能源、减碳。

电网里的电力是“混合”的,它既来自化石能源,又来自可再生能源。当天气变化时,可再生能源的出力也会发生变化,会改变电网里的电力混合。在给定的一段时间内,当天公作美,风强日丽,可再生能源的占比多时,绿电占比大的电网,单位电力的碳排放量即碳强度就会下降,反之则上升。

数据中心对于电力稳定性要求极高,这就需要数据中心在源、网、荷、储、碳几个方面做到总体最优化。

上述AI算力带来的电力问题,可以用AI的方法来解决。数据中心已经开始用AI训练出一些策略,如减少电力消费(制冷和IT负荷)转移负荷,把一些计算转移到碳强度较低的时段;利用储能,在低电网碳强度时充电,在高电网碳强度时补充负载需求。

但是,单个策略依赖于并不准确的长时预测(如24小时),而这些策略往往是每个阶段分别运用,依次处理数据和作出决策。这种基于流水线和长时预测的规划方法,无法实现整体优化。

数据中心的实际运行中,这三者之间是可以打通的,从而寻找实现整体最优化的策略。但它们之间的互相影响是一个复杂系统,目标之间需要相互平衡,数据中心缺乏实时的操作能力,无法有效地把多种控制策略结合起来。

能否用一种强化学习的方法,把这些目标统一起来,实现整体优化?惠普实验室的研究人员,提出了一个数据中心减碳模型(DC-CFR)这个模型建立在多智能体的强化学习(MARL)框架之上,用来破解数据中心的“不可能三角”:电力供应,减少碳足迹,控制电力成本

他们把问题部分解耦为子问题,每个子问题使用一个独立的马尔可夫决策过程(MDP)进行求解,这是强化学习的数学框架;它们对应着三个智能体,HVAC冷却,灵活的负载转移,储能优化。研究人员把这三个智能体接入OpenAI的深度强化学习算法。

具体而言,结合OpenAI Gym的接口,将数据中心的模拟环境与强化学习算法集成,使其可以在模拟的数据中心环境中进行训练和优化。

他们的解决方案设计了一个奖励信号,激励智能体降低能源消耗、碳足迹和能源成本。而在协作多智能体环境中,结合的奖励和重叠的状态变量则解决了这些依赖关系,实现了实时操作。

操作时间间隔设定为15分钟,以实现对系统的精确控制,并快速响应数据中心环境的变化。

(数据中心的数字孪生。研究使用了NREL的EnergyPlus数据中心模拟,通过IBM的SinerGym扩展了强化学习(RL)接口,并使用了Facebook的电池模型。)

值得一提的是,模拟实验中使用了开源数据集中的大规模真实世界数据中心的IT负载数据,提高了模拟的代表性。

研究人员使用了纽约的天气和碳强度数据来训练智能体,并通过加入噪声提高了解决方案的泛化能力。

在不同的气候和碳强度条件下评估模型的性能,就能测试智能体的普适性。研究人员选取了三个不同地点的天气和碳强度数据:亚利桑那、纽约和华盛顿。这些数据文件对应不同的气候特点,从炎热干燥到寒冷潮湿。同时,还考虑了能源成本的时段使用率价格,其中成本随小时变化。

研究人员用这个模型评估了一年,DC-CFR显著优于行业标准的ASHRAE控制器,减少了14.5%的碳排放、14.4%的能耗和13.7%的能源成本。

下一步,研究团队计划开源这一数据中心减碳模型,并且把更多的数据中心策略智能体整合到这一框架中,如优化碳动态异构计算资源分配以减少碳排放。未来还会把可持续数据中心的数字孪生技术,扩展适用于超级计算。

参考论文:https://arxiv.org/pdf/2403.14092

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究