用分层强化学习优化工业HVAC系统

RLer

强化学习（RL）技术已被开发用于优化工业冷却系统，与传统的启发式策略相比，可节省大量能源。工业控制中的一个主要挑战是学习由于机械约束而在现实世界中可行的行为。例如，某些操作只能每隔几个小时执行一次，而其他操作可以更频繁地执行。如果没有广泛的奖励工程和实验，RL智能体可能无法学习机器的实际操作。为了解决这个问题，我们使用分层强化学习，让多个智能体根据它们的操作时间尺度控制动作子集。我们的分层方法在现有基线的基础上实现了节能，同时在模拟暖通空调控制环境中保持诸如在安全范围内运行冷却器等限制。

论文原文： https://arxiv.org/pdf/2209.08112.pdf

工业系统占全球能源使用量的54%，温室气体排放量的34%[EIA，2016，Portner等人，2022]。随着能源消耗以每年1%的速度增长，工业系统在全球气温上升中发挥着巨大作用[IEA，2021]。一个这样的工业系统是暖通空调系统。这包括调节数据中心、办公室、商业建筑等温度的机械。具体而言，暖通空调冷却系统本身占温室气体排放量的10%[Tessler等人，2016年]。传统上，控制器必须针对环境进行调整，当运行条件发生变化时，其性能会下降[Afram和Janabi Sharifi，2014]。此外，手动调整控制器以最小化能源消耗并将温度保持在一定的限制范围内可能是一项挑战。相反，强化学习可以通过充当监督控制器来帮助操作员确定控制器要满足的设定点。通过将节能和温度约束作为优化问题，RL可以确定更有效的设定点。例如，Evans和Gao[2016]使用RL将数据中心冷却能源使用减少了40%。然而，将学到的政策应用于现实生活中的系统会带来许多挑战。例如，代理人可能会学习频繁打开和关闭暖通空调设备，或长时间保持其打开状态。在现实世界中，建筑操作员避免这种行为以限制磨损。对于离线RL，正则化行为值估计[Gulcehre等人，2021]可以防止代理产生生产中未出现的不切实际行为，但核心问题是单个代理很难在极长和极短的时间范围内进行推理。相反，我们建议使用多个代理，每个代理在不同的时间尺度上运行，来解决这个问题。我们专注于优化制冷设备，这是暖通空调系统的一个组成部分。这些工厂由多个冷却器和机械设备组成，这些设备通常通过液体制冷剂从建筑物中排出热量。仅应每隔几个小时打开和关闭冷冻机，并且应在冷冻机之间平均分配使用量，以避免不必要的磨损。同时，在整个制冷循环过程中，建筑温度需要保持在规定的范围内。分层强化学习（HRL）提供了在不同时间尺度上进行推理的能力。我们提出了一种HRL方法，避免了大量奖励工程的必要性，以满足建筑温度要求，并最大限度地减少冷却器磨损。虽然我们的工作重点是暖通空调系统，但同样的方法也适用于其他工业系统。我们在高保真工业冷却系统模拟器[Chervonyi等人，2022]中验证了我们的方法，该模拟器的模拟已根据真实工业系统数据进行了验证，为重新创建各种场景进行了参数化。此外，模拟步骤平均需要20到40秒。因此，在大量推出产品时进行模拟和训练是困难的。与使用真实世界的离线数据类似，代理必须是高效的样本，并使用有限的数据量进行学习。总之，我们的贡献是：（1）我们提出了一种用于优化制冷机组的新型分层强化学习结构。（2）为了进行比较，我们开发了基于基线启发式的策略（HBP）和多代理RL（MARL）方法。我们的启发式策略是受真实建筑中发现的真实启发式策略的启发。（3）我们证明，我们的分层体系结构在具有长期竞争目标的任务上优于平面RL算法、HBP和MARL。这建议将分层强化学习作为实现HVAC控制所需真实性能的框架。

Document