量子位 ·

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

腾讯的7B模型通过RLVER框架解决了AI情商的三大困境，得分从13.3提升至79.2，表现与顶级模型相当。RLVER利用用户模拟器优化多轮对话，增强模型的情感理解和共情能力，避免了灾难性遗忘。

🎯

关键要点

腾讯的7B模型通过RLVER框架解决了AI情商的三大困境，得分从13.3提升至79.2。
RLVER框架利用用户模拟器优化多轮对话，增强模型的情感理解和共情能力。
RLVER框架解决了环境困境、奖励困境和训练困境。
用户模拟器同时扮演交互环境和奖励来源，提供真实、多样的在线学习环境。
RLVER通过SAGE框架将用户主观体验转化为稳定的奖励信号。
模型关注整个对话的情绪变化趋势，以最终情绪总分作为奖励。
经过RLVER训练的Qwen2.5-7B模型表现与顶级商用模型相当，避免了灾难性遗忘。
RLVER训练过程中发现“思考式”模型和“反应式”模型的不同路径。
GRPO算法带来稳定增长，PPO算法则能突破特定维度的能力上限。
训练环境的设计应强调成长曲线，过于严格的环境不利于模型早期成长。
带有思考结构的模型在困难环境下更具鲁棒性，能够保持适应性。

🏷️

继续阅读

微信可以养龙虾了？腾讯一天甩出三只虾，最后这个大招有点狠
上周，腾讯在深圳举办了万人装OpenClaw活动，推出了支持微信远程操控电脑的QClaw本地AI助手。QClaw功能丰富，数据安全性高，腾讯的AI生态正在...
苹果官宣核心管理层调整；英伟达停产向中国销售H200芯片；安世荷兰批量禁用安世中国员工办公软件
苹果调整管理层，英伟达停产H200芯片，安世禁止中国员工使用办公软件，腾讯推出OpenClaw引发用户排队，甲骨文计划裁员。
龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
派早报：达摩院发布脂肪肝筛查 AI 模型 MAOSS 等
阿里巴巴达摩院与多家医院合作研发的脂肪肝筛查AI模型MAOSS，能够通过CT影像和血清指标精准筛查肝脂肪分期，将高风险患者的检出率提升至52.4%。该研究...
Google Stax：根据您自己的标准测试模型和提示
Google的Stax工具允许个人创建和评估机器学习模型，通常与TensorFlow或Vertex AI协作，专注于模型性能评估。
打败GPT-5.2，嵌入真实工业生产，这个大模型什么来头？
思谋科技的IndustryGPT在工业场景中表现优异，超越了GPT-5.2等通用大模型。通过三场考试，IndustryGPT展示了其在工业知识、工程决策能...

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

内容提要

关键要点

标签

继续阅读