朝着衡量人工智能系统的目标导向性
本文提出了一种新理论框架,将有限代理人的状态表示学习与目标导向结合。通过定义目标状态表示的可控性,研究粒度与策略复杂性之间的权衡。算法在导航任务中有效,强...
透过部分监督强化学习学习后见可观测部分可解释策略
本文提出了一种基于随机模型的方法,几乎确定地保证了强化学习的安全性。通过预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规...
令您的决策有说服力!一个统一的两阶段框架:自我归属和决策
该文介绍了一种通用框架,将自动规划和强化学习整合,称为SDM。该框架基于概率论和贝叶斯推断的概念,可以适用于任何方法。作者提供了一个通用算法,并推测每个S...
辨识时差学习
本文研究了函数逼近的时序差分学习论(TD)可能会收敛至比蒙特卡罗回归更劣的解的问题,以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在...
由特权到预测:面向城市驾驶的感觉动作强化学习
该研究使用深度学习模型比较了特权强化学习代理和感知运动代理在城市驾驶中的差异,并提出了逐步发展较不特权的强化学习代理的解决方案。研究发现离线数据集上训练的...
平等的长期收益率:将静态公平概念应用于顺序决策
本文提出了一种框架,以实现长期公平的顺序决策制定。通过强制性和软性干预,将路径特定效应作为测量长期公平性的定量工具。公平的顺序决策制定问题被规定为一个以效...
时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数
本研究探讨了函数逼近的时序差分学习论(TD)的问题,发现了泄漏扩散的证据,并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题,并在无奖励...
对抗性测试作为可解释性工具:转换器中初等函数的基于长度的过拟合
研究探讨了转换器模型在训练数据中过拟合的问题,特别是序列长度的影响。通过字符串编辑函数,提出新的识别错误指标,揭示模型在处理长序列时的局限性及其与结构特征...
从测量工具到训练数据:利用理论驱动的合成训练数据来测量社会构念
本研究提出一种理论驱动的合成训练数据方法,提高文本分类中多维社会构念的测量精度。研究表明,该方法能有效减少对标注数据的依赖,尤其在政治话题分类中效果显著。