量子位 ·

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

腾讯的7B模型通过RLVER框架解决了AI情商的三大困境，得分从13.3提升至79.2，表现与顶级模型相当。RLVER利用用户模拟器优化多轮对话，增强模型的情感理解和共情能力，避免了灾难性遗忘。

🎯

关键要点

腾讯的7B模型通过RLVER框架解决了AI情商的三大困境，得分从13.3提升至79.2。
RLVER框架利用用户模拟器优化多轮对话，增强模型的情感理解和共情能力。
RLVER框架解决了环境困境、奖励困境和训练困境。
用户模拟器同时扮演交互环境和奖励来源，提供真实、多样的在线学习环境。
RLVER通过SAGE框架将用户主观体验转化为稳定的奖励信号。
模型关注整个对话的情绪变化趋势，以最终情绪总分作为奖励。
经过RLVER训练的Qwen2.5-7B模型表现与顶级商用模型相当，避免了灾难性遗忘。
RLVER训练过程中发现“思考式”模型和“反应式”模型的不同路径。
GRPO算法带来稳定增长，PPO算法则能突破特定维度的能力上限。
训练环境的设计应强调成长曲线，过于严格的环境不利于模型早期成长。
带有思考结构的模型在困难环境下更具鲁棒性，能够保持适应性。

❓

延伸问答

腾讯的7B模型在情感对话基准上的得分是多少？

腾讯的7B模型在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2。

RLVER框架是如何解决AI情商的三大困境的？

RLVER框架通过构建用户模拟器，提供真实的交互环境和稳定的奖励信号，解决了环境、奖励和训练的困境。

用户模拟器在RLVER框架中扮演什么角色？

用户模拟器同时作为交互环境和奖励来源，模拟多样的用户情感和需求，提供真实的在线学习环境。

RLVER框架如何优化模型的情感理解能力？

RLVER框架关注整个对话的情绪变化趋势，以最终情绪总分作为奖励，促进模型的情感理解和共情能力。

在RLVER训练中，思考式模型与反应式模型有什么区别？

思考式模型通过情绪分析和策略推理生成回应，提升共情能力；反应式模型则快速生成回应，侧重于实用性。

RLVER框架对模型行为风格的影响是什么？

RLVER框架使模型从“解题型风格”转变为“情绪型风格”，更关注理解用户感受而非仅解决问题。

🏷️

继续阅读

使用FastAPI训练、服务和部署Scikit-learn模型
本文介绍了如何使用FastAPI训练、服务和部署Scikit-learn模型。首先，创建项目结构并安装依赖。然后，使用乳腺癌数据集训练随机森林分类器并保存...
神秘模型「大象」：仅100B拿下SOTA，Token效率超高！
蚂蚁Inclusion AI团队推出了名为「大象」的AI模型，大小仅100B，具备高效的代码生成和修复能力。实测显示，「大象」在处理代码、会议纪要和数据分...
Anthropic最危险的AI模型刚刚落入错误之手
Anthropic的Mythos AI模型被一小组未经授权的用户访问，该小组利用第三方承包商的访问权限和网络侦查工具进入了该模型。Anthropic正在调...
无需科学上网，国内丝滑使用最新GPT-Image-2！
最新的「Image-2」图像模型已在椒图AI上线，功能超越前作，用户可通过提示词生成海报、直播截图和热搜截图等多种图像，提供丰富的设计体验，鼓励用户发挥想象力。
国产多模态Agent拿下医学分割SOTA！不用改模型、不加token
浙江大学和上海人工智能实验室提出的IBISAgent框架，将医学图像分割重新定义为多步视觉决策过程，克服了现有方法的局限。通过冷启动和强化学习，IBISA...
OpenAI推出图像生成模型Images 2.0 图像细节和逻辑都有显著提升
OpenAI 发布了全新的图像生成模型 Images 2.0，显著提升了图像生成的细节、逻辑和可用性。新模型减少了中文字符的乱码，提升了文本渲染质量，支持...