小红花·文摘

本文探讨了大型语言模型（LLMs）在逆转诅咒问题上的表现，揭示了其一般化能力和问题解决机制的局限性。研究表明，LLMs在特定结构下能够有效一般化，但训练偏差显著影响模型的表现，提供了对LLMs学习方法的新见解。

In-Depth Study of the Curse of Dimensionality: To What Extent Can Large Language Models Generalize?

BriefGPT - AI 论文速递 ·

通过将大型语言模型（LLMs）作为决策制定代理部署到RL中，我们提出了TWOSOME，这是一个新颖的在线框架，使LLMs能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了TWOSOME的性能，结果表明TWOSOME在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Reflect-RL: 用于语言模型的两人在线强化学习微调

BriefGPT - AI 论文速递 ·

通过将LLMs作为决策制定代理部署到RL中，提出了TWOSOME在线框架，提高了样本效率和性能。实验结果表明TWOSOME在决策制定环境和模拟家庭环境中具有优越的一般化能力和原始能力的保持。

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

BriefGPT - AI 论文速递 ·

本文提出了GCL-GE指标来衡量图对比学习GCL的一般化能力，并通过信息理论证明了互信息的上界。设计了名为InfoAdv的GCL框架，具有增强的一般化能力，在预训练任务适配和下游任务的一般化能力之间取得平衡，并在基准测试中表现出最先进的性能。

跨视图图形一致性学习的不变图表示

BriefGPT - AI 论文速递 ·

本文提出了GCL-GE指标来衡量GCL的一般化能力，并设计了名为InfoAdv的GCL框架，平衡了预训练任务适配和下游任务的一般化能力，取得了最先进的性能。

理想对齐可能对图形对比学习具有有害作用

BriefGPT - AI 论文速递 ·

本研究评估了多个生成模型在教育对话中的表现，发现GPT-4在教师-学生聊天记录子集上表现优越。数据集特征对微调模型的一般化能力造成了挑战，需要评估这些生成模型的能力。

Flesch 或 Fumble？评估教学调整的语言模型的可读性标准对齐

BriefGPT - AI 论文速递 ·