GPT-oss在无提示情况下生成编程问题并反复求解5000次,表现出幻觉行为。尽管模型训练数据广泛,但在推理时常出现语言转换和异常输出,显示其在特定任务上过度优化,缺乏自然性。
本文研究了大规模视觉语言模型(LVLMs)在多对象幻觉方面的困难,通过引入基于识别的对象探针评估(ROPE),发现LVLMs在关注多个对象时更容易产生幻觉。对象类别分布、数据特定因素、显著性和频率以及模型内在行为都会影响幻觉行为。作者希望提供解决这些问题的见解和进展。
本论文介绍了一种基于在线强化学习的细粒度反馈方法(RLFH),用于减轻大型语言模型在生成过程中的幻觉行为。实验结果显示,RLFH可以平衡大型语言模型在生成过程中使用内部知识的程度,从而消除幻觉行为。
完成下面两步后,将自动完成登录并继续当前操作。