差分隐私模型导向的离线强化学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种使用差分隐私保证的离线增强学习方法,从离线数据中学习环境的私有模型,并推导出一个策略,实现了训练私有的增强学习智能体的目标。

🎯

关键要点

  • 提出了一种具有隐私保证的离线增强学习方法。
  • 目标是训练与数据集中的个体轨迹具有差异隐私的策略。
  • 引入了 DP-MORL,一个带有差分隐私保证的 MBRL 算法。
  • 使用 DP-FedAvg 从离线数据中学习环境的私有模型。
  • DP-FedAvg 是一种为神经网络提供轨迹级差分隐私保证的训练方法。
  • 通过基于模型的策略优化从私有模型中推导出策略,无需进一步交互或访问输入数据。
  • 实验证明 DP-MORL 可以从离线数据中训练私有的增强学习智能体,并分析了隐私的代价。
➡️

继续阅读