机器之心 ·

ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驱动的对齐方法，8B越级胜70B

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。李学龙教授团队提出COPO方法，增强大型语言模型的探索能力，克服对齐框架的局限性，提高模型性能与安全性。该研究成果已被ICLR 2025录用，验证了在线学习的有效性。

🎯

❓

COPO方法旨在增强大型语言模型的探索能力，克服对齐框架的局限性，提高模型性能与安全性。

COPO算法结合基于计数的探索和直接偏好优化框架，通过伪计数机制提升在线RLHF算法的探索能力。

实验结果表明，COPO在指令遵循和学术基准测试中的性能优于其他RLHF基线，显著提升了模型的胜率。

COPO方法解决了大型语言模型在对齐过程中对语言空间的自主探索问题，突破了离线数据集的约束。

COPO方法将人类探索的本能融入大语言模型的后训练中，允许模型在与语言环境的互动中不断学习和进步。

李学龙教授是中国电信集团的CTO和首席科学家，领导团队提出COPO方法并进行相关研究。

🏷️

2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
macOS 存储管理漫谈：去重是节约空间的最好方法
文章讨论了macOS的存储管理，强调手动清理垃圾文件的重要性。虽然macOS会定期自动清理临时文件，但许多被标记为垃圾的文件实际上对系统有用。清理软件主要...
41 项人体试验告诉你：哪些抗衰老方法真能逆转生物学年龄
哈佛科学家回顾 41 项人体干预研究，用下一代表观遗传时钟验证各类抗衰老方法。发现司美格鲁肽、鱼油、运动确实有效；而血浆置换反而加速老化；雷帕霉素、NR ...
Why Zig Isn’t 1.0 (Yet)
Most programming languages follow a familiar trajectory: early experimental r...
Why isn’t the Trump phone made in the USA?
Where's the Trump phone? We're going to keep talking about it every w...