小红花·文摘

本研究探讨大型语言模型（LLM）生成高置信度错误输出的现象，称为“LLM幻觉”。研究发现，在低不确定性情况下更难以检测和减轻幻觉，并提出了针对性的减轻策略，以提高模型的可靠性。

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在决策中受到认知偏见的影响，分析个性特征对偏见的作用，发现责任心和宜人性能够有效减轻偏见，强调个性驱动的偏见动态及其减轻策略的重要性。

BriefGPT - AI 论文速递 ·

本研究提出了一种无需检测后门的移除策略，有效减轻机器学习模型中的后门攻击，提升安全性。研究表明，当真实标签接近特定函数时，能够实现后门减轻，具有重要的应用潜力。

BriefGPT - AI 论文速递 ·