小红花·文摘

上海交通大学生成式人工智能实验室（GAIR Lab）推出了评估大模型诚实性的基准BeHonest，从自我认知、非欺骗性和一致性三个核心维度出发，对9个主流大语言模型进行了评估。结果显示，大多数模型在回答已知问题时表现出色，但在主动承认未知方面存在不足。现有模型存在欺骗倾向，不论指令是否合理。较大模型表现更为稳定。BeHonest的研究为AI诚实性评估提供了依据，呼吁AI社区进一步关注诚实性问题。