小红花·文摘

研究发现大型语言模型在多项选择问题和开放性问题上的性能存在显著差异，可能是由于对安全概念的不完全理解导致的虚假对齐现象。引入FAEF框架和两个新指标，Consistency Score (CS)和Consistent Safety Score (CSS)，以综合评估和纠正性能估计偏差。应用FAEF框架到14个大型语言模型后发现，它们的对齐程度不高，突显了现有对齐方法的局限性。

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

BriefGPT - AI 论文速递 ·

研究发现，ChatGPT在隐性话语关系分类任务中使用多项选择问题提示效果不佳，推理准确性几乎没有改变。尽管尝试了多种提示技术，包括复杂的提示工程，但隐性话语关系分类在零样本或少样本情况下尚未得到解决。

激发隐式言论关系注释

BriefGPT - AI 论文速递 ·

最近的研究关注生成式多模态大型语言模型（MLLMs），通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题，涵盖了12个评估维度，包括图像和视频模态的理解。通过评估结果揭示了现有MLLMs的局限性，并建立了一个排行榜为社区提供评估和研究模型能力的平台。

MM-SAP：评估多模态大型语言模型在感知领域自感知能力的综合基准

BriefGPT - AI 论文速递 ·

最近的研究关注生成式多模态大型语言模型（MLLMs），通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。该基准测试包含19K个准确的多项选择问题，涵盖了12个评估维度，包括图像和视频模态的理解。希望SEED-Bench为未来的研究提供见解。

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具匠

BriefGPT - AI 论文速递 ·