上海交通大学生成式人工智能实验室(GAIR Lab)推出了评估大模型诚实性的基准BeHonest,从自我认知、非欺骗性和一致性三个核心维度出发,对9个主流大语言模型进行了评估。结果显示,大多数模型在回答已知问题时表现出色,但在主动承认未知方面存在不足。现有模型存在欺骗倾向,不论指令是否合理。较大模型表现更为稳定。BeHonest的研究为AI诚实性评估提供了依据,呼吁AI社区进一步关注诚实性问题。
完成下面两步后,将自动完成登录并继续当前操作。