BriefGPT - AI 论文速递 ·

PersuasiveToM：评估机器心智理论在说服对话中的基准

📝

内容提要

本研究旨在解决当前机器学习模型在评估心智理论（ToM）方面的不足，尤其是在说服对话中的应用。提出的新基准PersuasiveToM通过设计两类问题，分别评估模型对心理状态的推理能力和应用能力，发现尽管模型在多个问题上表现良好，但在理解复杂心理状态的动态变化方面仍显不足。这项工作有望为评估LLMs的心智理论能力提供新的视角。

➡️

继续阅读

当 AI 对话里直接弹出业务界面：MCP Apps 正在改写 SaaS 的集成逻辑 - 张善友
MCP Apps 通过标准化的 UI 资源协议，解决了 AI 助手与复杂业务系统的交互问题。它允许 SaaS 厂商将业务界面嵌入 AI 对话中，使用户能在...
GPT-5.6系列模型的社区反馈、基准表现和使用建议
GPT-5.6系列模型分为Sol、Terra和Luna三种，分别适用于复杂任务、日常工作和批量处理。Sol适合复杂操作但价格较高；Terra性价比高，适合...
【Rust日报】2026-07-13 fearless_simd 0.6 发布：AVX-512 支持正式落地，还能按目标机器精细关掉它
fearless_simd 0.6 发布：AVX-512 支持正式落地，还能按目标机器精细关掉它如果你最近在关注 Rust 生态里的 SIMD 基础设施...
Christophe Pettus: All Your GUCs in a Row: enable_tidscan
TID scans only happen when you explicitly ask for them via `ctid`, making `en...
苹果起诉OpenAI内幕
苹果起诉OpenAI内幕苹果起诉OpenAI窃取商业机密，焦点不只是前员工带走文件，而是AI硬件、供应链和未来手机入口之争。本文梳理苹果诉OpenAI...
早报｜曝苹果M7 Ultra最高支持1.5TB内存/海力士CEO:明年将迎史上最严峻储存短缺/马斯克奥特曼再次公开对垒
· 大众计划削减一半车型线，全球裁员规模或达 12 万人 · 扎克伯格否认 Meta 算力过剩：没人会嫌算力太多 · 宇树 G1 机器人完成两例活体手术，...