本研究解决了HVAC系统控制策略缺乏通用性和大量数据需求的问题,提出了一种基于上下文强化学习的决策预训练变换器HVAC-DPT。该方法将HVAC控制定性为一个顺序预测任务,使其在不同建筑中无需额外训练或数据收集即可有效减少能源消耗,相比基线控制器降低了45%的能耗。
以满足日益增长的深度神经网络对目标识别的数据需求为背景,本文提出了一种可能的解决方案,即发展性预训练(DPT),它是一种基于课程的预训练方法,旨在与那些对数据需求很大的传统预训练技术竞争。本文从人类婴儿视觉发展中汲取灵感,设计了 DPT 的课程,并采用阶段性的方法向网络传授精心选择的基本和普遍特征。通过将经历了 DPT 训练的模型与具有随机权重的模型进行对比评估,验证了 DPT 的可行性。
该论文提出了DPT作为针对区分性PLMs的prompt tuning框架,实验表明DPT在全集和低资源环境下都能显著提高性能,并解决了调整大型PLMs中的不稳定问题。
完成下面两步后,将自动完成登录并继续当前操作。