基于深度强化学习的智能暖气温度控制系统
基于深度强化学习的智能暖气温度控制系统李涛,,魏庆来,中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京中国科学院大学,北京研究如何通过暖气设备自适应地调节室温,提升室内环境的舒适度,具有非常重要的意义。因此,提出了基于双深度Q网络方法的智能暖气温度控制系统,根据人的表情信息控制暖气设备的阀门开度,实时调整室温。首先,介绍针对原始输入状态的预处理算法。然后,设计通过双深度Q网络方法学习控制暖气设备阀门开度的最佳策略。最后,通过仿真结果验证提出的方法的有效性。深度强化学习;暖气设备;温度控制;疲劳检测;图像处理
李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,00,(4):-.
LIT,WEIQL.Intelligentheatingtemperaturecontrolsystembasedondeepreinforcementlearning[J].ChineseJournalofIntelligentScienceandTechnology,00,(4):-.
.引言
随着我国经济、科技水平的不断提高,越来越多的人开始追求更加舒适的居住、工作环境。在影响环境舒适度的众多因素中,温度是非常重要的因素之一。相关研究表明,过高或过低的温度都会使人感到不舒适,降低人的工作效率。暖气设备是常见的室温调节装置。研究如何根据室内人员的需求通过暖气设备自动地调节室温,对于提升室内环境的舒适度具有非常重要的意义。传统的通过暖气设备控制室温的方法包括比例-积分-微分控制、动态矩阵预测控制以及模糊控制等。在传统的控制方法中,室温的设定值通常是预先设定的固定值,控制器需要调节暖气设备,使得室温尽可能稳定在设定值附近。然而,相关研究表明,稳定的室温无法有效提升人的工作效率,甚至会降低人的工作效率。因此,本文抛弃了常规的固定室温设定值的控制思路,直接以消除人的困倦为控制目标,根据人的状态实时调整室温。本文设计了一种将人的表情作为输入的自学习控制器。这种自学习控制器能够根据人的表情自主学习到合适的控制策略,通过调整暖气设备的阀门开度控制室温,从而尽可能地消除室内人员的疲劳,提升室内人员的工作效率。户外天气情况的变化和室内人员的自由活动使得房屋的热模型具有很强的不确定性。这导致在实际应用时基于模型的控制方法往往无法取得良好的效果。因此,许多研究者使用无模型的学习算法,尤其是强化学习方法来研究室温控制问题。在参考文献中,BarrettE使用贝叶斯学习方法预测室内人员的活动情况,使用Q学习方法学习控制策略。BarrettE使用Bang-Bang控制方法控制加热设备,控制器的输入状态包括室温、时间和天气等。显然,由于传统强化学习算法的限制,控制器的输入状态只能是人们已经提取好的环境信息,无法直接从高维信息中自动学习到控制需要的特征。近年来,深度学习取得了巨大进展,深度强化学习也得到了越来越多的