量子位 ·

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

Meta超级智能实验室的新论文《Language Self-Play For Data-Free Training》引发争议，因被指忽视前人研究且缺乏创新。该论文提出通过博弈让语言模型自我提升，但网友质疑其突破性，认为类似研究已有很多。

🎯

🔎

Meta的LSP方法通过博弈框架让模型自我提升，虽然在无数据训练中展现出一定的创新性，但其方法的有效性和长期稳定性仍需进一步验证。尤其是LSP-Zero在实践中可能出现的退化现象，提示研究者需谨慎设计奖励机制，以避免模型生成无意义内容。

该论文引发的争议主要集中在对前人研究的忽视上。许多网友指出，类似的研究早已存在，Meta未能充分引用相关工作，这可能影响其学术声誉和研究的可信度。研究者在发表时应更加重视文献回顾，以避免重复劳动和学术不端的指责。

实验结果显示，LSP在对话类任务上表现显著优于传统方法，这为未来的AI对话系统提供了新的思路。随着AI技术的发展，如何在无数据环境下提升模型能力，将是推动智能对话系统进步的重要方向。研究者和开发者应关注这一领域的最新进展。

❓

该论文提出通过Language Self-Play方法，让大型语言模型在没有额外训练数据的情况下实现自我提升。

LSP方法将模型的学习过程设计为博弈框架，模型扮演挑战者和解决者两个角色进行对抗训练。

LSP-Zero方法引入了奖励机制，推动模型不断改进，同时也引入了自我质量奖励以引导高质量交互。

网友质疑该论文忽视了大量前人研究，认为类似研究已有很多，且未能引用相关工作。

实验结果显示，LSP和LSP-Zero在无需训练数据的情况下提升预训练LLM性能，尤其在对话类任务上表现显著。

截至目前，Meta及论文作者尚未对此争议作出回应。

🏷️