小红花·文摘

本研究提出了一种引导策略优化（GPO）框架，旨在解决部分可观察环境中强化学习的不确定性问题。该方法通过引导者与学习者的共同训练，理论上达到了与直接强化学习相当的最优性，并在多项任务中显著优于现有方法。

Guided Policy Optimization under Partial Observability

BriefGPT - AI 论文速递 ·

本研究解决了语言建模中规划模块与语言模型无法共同微调的问题。通过使用预测标签概率作为混合权重的方法，实现共同训练，优化标签分布。实验结果显示，该方法在困惑度上有明显改善。

End-to-End Planner Training for Language Modeling

BriefGPT - AI 论文速递 ·

本文探讨了多视角学习方法，包括共同训练、多核学习和子空间学习，提出了多视角机器（MVM）和多视角完整空间学习（MISL）等算法，强调了其在处理缺失标签和非对齐视角中的优势。研究还介绍了张量共识图框架（TCGF）和双参数边际支持向量机模型（MvTPMSVM），并通过实验验证了这些模型在多视角学习中的有效性和优越性能。

增强多视角协同：利用共识和互补原则的波损失函数进行稳健学习

BriefGPT - AI 论文速递 ·