BriefGPT - AI 论文速递 ·

CharacterBox：评估大型语言模型在基于文本的虚拟世界中的角色扮演能力

📝

内容提要

本研究解决了评估大型语言模型（LLMs）在角色扮演能力方面的复杂性和不足之处，提出了一种名为CharacterBox的新方法。这一模拟沙箱不仅生成细粒度的人物行为轨迹，还通过角色代理和叙述代理的结合，提升评估的全面性。研究表明，CharacterBox能有效增强LLM的表现，并与先进的GPT API竞争。

🏷️

继续阅读

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust 原生数据表格组件 uiGrid 发布一个为 egui 开发的功能丰富的数据表格组件已在 GitHub 开源，采用 MIT 许可证。主要特性 ...
DeepSeek V4 发布没炸场，却靠降价掀起革命？
本文拆解DeepSeek V4连续降价如何改变AI模型使用成本，帮助开发者和低频用户判断是否还要购买Coding Plan或Token Plan。文章围绕...
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
· 三星 Q1 芯片利润暴涨 49 倍，单部门吃掉全集团 94% 营业利润 · 赛力斯一季度卖出 78500 辆新能源车，研发费用同比增长 70.7% ·...
OpenClaw四月更新连环翻车现场：每次升级都是新bug盲盒
本文回顾OpenClaw在2026年四月的一系列更新事故，从lossless-claw损坏到误删1617个文件，再到强行安装需要OpenAI密钥的技能，分...
2026 05 01 HackerNews
2026-05-01 Hacker News Top Stories # Copy Fail（CVE-2026-31431）利用 AF_ALG+...

CharacterBox：评估大型语言模型在基于文本的虚拟世界中的角色扮演能力

内容提要

标签

继续阅读