机器之心 ·

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇研究内容。研究团队提出新算法UNICORN，基于信息论，解决离线元强化学习中的任务表示学习问题，提升AI决策能力，助力药物发现等领域。

🎯

🔎

离线元强化学习结合了离线强化学习和元强化学习的优点，允许模型在历史数据中进行高效学习，避免了在线交互带来的风险。这种方法在药物发现和自动驾驶等复杂场景中尤为重要，因为它能提高决策的安全性和样本效率。

UNICORN通过信息论提供了任务表示学习的统一理论框架，首次系统性地定义了这一问题。这种理论创新不仅为现有方法提供了系统性支持，还为未来新方法的设计指明了方向，具有重要的学术价值和应用潜力。

实验结果表明，UNICORN在多种任务中表现优异，尤其在分布外测试集上显著优于现有方法。这表明其在处理复杂任务时的鲁棒性和泛化能力，为决策大模型的实际应用提供了有力支持。

❓

UNICORN算法的主要创新在于基于信息论首次系统性地定义和解构了离线元强化学习中的任务表示学习问题，并统一了现有方法的优化目标。

离线元强化学习的优势在于可以利用历史数据进行训练，避免在线交互的风险，具有高安全性和高样本效率。

实验结果表明，UNICORN在多种任务中表现优异，尤其在分布外测试集上显著优于现有其他方法。

任务表示学习旨在找到一个数据相对于任务变量的充分统计量，以便在离线元强化学习中有效学习任务表征。

UNICORN通过信息论的框架，提出了优化目标I(Z; M)，该目标具有对语境偏移的鲁棒性，从而有效应对训练和测试集间的分布偏移。

UNICORN的未来展望是为决策大模型的能力边界提供理论基础，并解决药物设计、精准医疗等领域的AI模型挑战。

🏷️