优享资讯 | 用魔法打败魔法：用AI控制AI算力碳排放

全部-虎嗅网 ( ) • 2024-06-24 08:31

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究，题图来自：视觉中国

本文介绍了如何利用AI控制AI算力碳排放，通过强化学习方法优化数据中心的能源消耗和碳足迹。

• 💡 AI算力需求爆发，数据中心需求清洁电力

• 🌱 强化学习模型实现数据中心整体优化

• 🔄 减少碳排放、能耗和能源成本的显著效果

AI的终点是电力。因为数据中心最终要实现可持续发展，净零碳排放，AI的真正的终点是清洁电力。

由于AI大模型的革命性突破，对算力的需求开始爆发。尽管用于AI加速计算的GPU芯片性能进步的速度已经超越了摩尔定律，但仍然无法满足总算力的需求。

未来推理对算力的需求，将远远超过训练，AWS预计推理将在总算力中占90%。

计算的本质是能源的处理形式，计算过程也是能量转换和使用的结果。从技术上是瓦特驱动比特，而从经济上，就是用电力这种商品的投入，通过AI计算，生成token这种商品的产出。

黄仁勋把英伟达定义为一家AI工厂，它所产生的，是未来经济（第四次工业革命）的基础商品，即以token计量的智能。

目前从美国的科技七雄（M7），到中国的华为、阿里、腾讯、字节、百度等巨头，都建立了十万级至百万级GPU卡的智能算力基础设施。

其中M7和个别中国科技巨头，一直以来也是清洁电力最大的采购方，它们都已经制定了实现碳中和的计划，有的如谷歌和微软，甚至制定出了绝对零碳的计划。

未来的智算中心，本质上是一个绿色算力和清洁电力系统，兼顾算力、能源、减碳。

电网里的电力是“混合”的，它既来自化石能源，又来自可再生能源。当天气变化时，可再生能源的出力也会发生变化，会改变电网里的电力混合。在给定的一段时间内，当天公作美，风强日丽，可再生能源的占比多时，绿电占比大的电网，单位电力的碳排放量即碳强度就会下降，反之则上升。

数据中心对于电力稳定性要求极高，这就需要数据中心在源、网、荷、储、碳几个方面做到总体最优化。

上述AI算力带来的电力问题，可以用AI的方法来解决。数据中心已经开始用AI训练出一些策略，如减少电力消费（制冷和IT负荷）；转移负荷，把一些计算转移到碳强度较低的时段；利用储能，在低电网碳强度时充电，在高电网碳强度时补充负载需求。

但是，单个策略依赖于并不准确的长时预测（如24小时），而这些策略往往是每个阶段分别运用，依次处理数据和作出决策。这种基于流水线和长时预测的规划方法，无法实现整体优化。

数据中心的实际运行中，这三者之间是可以打通的，从而寻找实现整体最优化的策略。但它们之间的互相影响是一个复杂系统，目标之间需要相互平衡，数据中心缺乏实时的操作能力，无法有效地把多种控制策略结合起来。

能否用一种强化学习的方法，把这些目标统一起来，实现整体优化？惠普实验室的研究人员，提出了一个数据中心减碳模型（DC-CFR），这个模型建立在多智能体的强化学习（MARL）框架之上，用来破解数据中心的“不可能三角”：电力供应，减少碳足迹，控制电力成本。

他们把问题部分解耦为子问题，每个子问题使用一个独立的马尔可夫决策过程（MDP）进行求解，这是强化学习的数学框架；它们对应着三个智能体，HVAC冷却，灵活的负载转移，储能优化。研究人员把这三个智能体接入OpenAI的深度强化学习算法。

具体而言，结合OpenAI Gym的接口，将数据中心的模拟环境与强化学习算法集成，使其可以在模拟的数据中心环境中进行训练和优化。

他们的解决方案设计了一个奖励信号，激励智能体降低能源消耗、碳足迹和能源成本。而在协作多智能体环境中，结合的奖励和重叠的状态变量则解决了这些依赖关系，实现了实时操作。

操作时间间隔设定为15分钟，以实现对系统的精确控制，并快速响应数据中心环境的变化。

（数据中心的数字孪生。研究使用了NREL的EnergyPlus数据中心模拟，通过IBM的SinerGym扩展了强化学习（RL）接口，并使用了Facebook的电池模型。）

值得一提的是，模拟实验中使用了开源数据集中的大规模真实世界数据中心的IT负载数据，提高了模拟的代表性。

研究人员使用了纽约的天气和碳强度数据来训练智能体，并通过加入噪声提高了解决方案的泛化能力。

在不同的气候和碳强度条件下评估模型的性能，就能测试智能体的普适性。研究人员选取了三个不同地点的天气和碳强度数据：亚利桑那、纽约和华盛顿。这些数据文件对应不同的气候特点，从炎热干燥到寒冷潮湿。同时，还考虑了能源成本的时段使用率价格，其中成本随小时变化。

研究人员用这个模型评估了一年，DC-CFR显著优于行业标准的ASHRAE控制器，减少了14.5%的碳排放、14.4%的能耗和13.7%的能源成本。

下一步，研究团队计划开源这一数据中心减碳模型，并且把更多的数据中心策略智能体整合到这一框架中，如优化碳动态异构计算资源分配以减少碳排放。未来还会把可持续数据中心的数字孪生技术，扩展适用于超级计算。

参考论文：https://arxiv.org/pdf/2403.14092

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究