小红花·文摘

本研究解决了高效多模态大语言模型（EMLLMs）在自评推理方面的优化问题，提出了新的自评增强训练方法（SEAT）以及级联自评增强训练方法（Cas-SEAT）。通过分解长提示为短的任务特定提示，Cas-SEAT显著提升了模型的自评能力，具体在MathVista、Math-V和We-Math数据集上分别提高了19.68%、55.57%和46.79%的性能，为未来EMLLM自评研究提供了重要资源。

级联自评增强训练用于高效的多模态大语言模型

BriefGPT - AI 论文速递 ·

人工智能在不同关键场景中已经被广泛应用，但其可靠性和透明度仍存在挑战，本文提出了一种自评估方法来解决此问题，并给出了指导方针和方法选择原则，旨在帮助机器学习工程师和用户选择适合的自评估技术。

AI 自评不确定性感知设计的决策驱动方法

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（LLMs）的人格特征，发现其在不同情境下表现出显著差异。通过心理测量测试，评估了LLMs的个性可靠性与有效性，指出现有自我评估测试存在偏差，无法准确测量机器的人格。研究强调需谨慎对待LLMs的个性定义与评估方法。

自评、展示和认可：大型自然语言模型中的人格评价综述

BriefGPT - AI 论文速递 ·

本文研究了大语言模型（LLMs）如何呈现出与不同价值观和个性特质相关的不同视角。研究者使用心理学问卷来研究模型表现的价值观和个性特质如何因不同视角而变化。通过定性和定量实验，研究者证明了LLMs在不同情境下表达不同的价值观和人格特质，并探讨了多种相关的科学问题。

研究自评测验在大型语言模型的人格测量中的适用性

BriefGPT - AI 论文速递 ·

本研究提出了一种新的推理方法RAIN，通过整合自评和倒带机制，可以直接生成与人类偏好一致的回答，无需额外数据进行模型对齐。实验证明RAIN有效，改善了LLaMA 30B模型的无害率，同时在对抗性攻击下降低了攻击成功率。

RAIN: 语言模型可以自动对齐，无需微调

BriefGPT - AI 论文速递 ·