小红花·文摘

本文提出了$ exttt{SAGE}$框架，旨在提升大型语言模型（LLM）的安全评估，特别是在特定风险和动态交互中。该框架通过对抗性用户模型进行定制化危害评估，增强了评估的有效性。实验结果表明，随着对话长度的增加，模型的危害性也随之上升，强调了适应性测试的重要性。

BriefGPT - AI 论文速递 ·

本研究提出了一种基于内容的题目难度预测模型，旨在降低语言模型评估的成本并提高可靠性。通过适应性测试生成题目，提升了评估效率和精准度。实验结果表明，该方法在22个自然语言基准和172个语言模型中表现优越。

BriefGPT - AI 论文速递 ·

本文介绍了一种通过深度强化学习模型实现人形机器人手灵巧操作的策略和姿态估计器，并在仿真环境中进行了训练和适应性测试。该方法在多种硬件和仿真设置中进行了模拟实现，为后续研究提供了方便、低成本的机器人手和摄像机。

BriefGPT - AI 论文速递 ·