本研究探讨大型语言模型(LLM)生成高置信度错误输出的现象,称为“LLM幻觉”。研究发现,在低不确定性情况下更难以检测和减轻幻觉,并提出了针对性的减轻策略,以提高模型的可靠性。
本研究探讨大型语言模型在决策中受到认知偏见的影响,分析个性特征对偏见的作用,发现责任心和宜人性能够有效减轻偏见,强调个性驱动的偏见动态及其减轻策略的重要性。
本研究提出了一种无需检测后门的移除策略,有效减轻机器学习模型中的后门攻击,提升安全性。研究表明,当真实标签接近特定函数时,能够实现后门减轻,具有重要的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。