MIT研究人员提出了一种新方法,通过比较目标模型与类似模型的回答,识别自信但错误的响应。他们的总不确定性度量(TU)结合自我一致性和模型间不一致性,能更有效地识别不可靠的预测,尤其在唯一正确答案的任务中表现突出。
本研究通过自我一致性和思维链技术,提升了云端大型语言模型在数学推理中的准确性。提出的MathGenie和MathScaleQA方法,通过生成高质量的数学问题和数据集,显著提高了模型性能,解决了结构化数据处理的困难,并为后续开源研究提供了重要资源。
本文探讨了大型语言模型(LLMs)在自我一致性方面的表现,提出了一种新的自我一致性方法(USC),通过多个候选答案选择最一致的结果。研究表明,USC在数学推理和代码生成等任务中显著提升了性能,并在开放式生成任务中有效利用多个样本。尽管一致性有所提高,但在特定主题上仍存在不一致性问题。
本文探讨了通过自我一致性和思维链技术改善云端大型语言模型的分布式同义问题,提出了结构化思维链和自主启发式链式思考框架,显著提高了多轮问答的准确性和推理能力。研究还涉及医疗任务自动化、知识图谱引导的多跳推理及定制化语言模型提示,展示了在多个领域的应用潜力和性能提升。
本研究提出了一种在资源受限的机器人系统中实现低延迟决策的学习视觉动作控制方法。通过自我一致性获得Consistency Policy,与其他方法比较后发现,Consistency Policy可以提高推断速度并保持竞争性的成功率。
本研究探讨了视觉和语言模型在生成解释时的依赖程度,并评估了视觉和语言模型解码器的自我一致性。发现视觉和语言模型的自我一致性不如纯语言模型,对图像的贡献较小。对最新的视觉和语言模型解码器进行了基准测试,发现仍然存在困难现象。
大型语言模型的忠诚度测试通常只测量模型输出的自我一致性,而不是其内部工作的忠诚度。作者提出了一种新的测量方法,通过比较模型的输入贡献与答案预测和生成解释之间的一致性来更准确地衡量模型的忠诚度。
OpenAI模型套件上的行为实验发现,模型在含糊的整数序列填充任务中的平均一致性介于67%和82%之间,且随着模型能力的提高而增加。模型在自我一致性上存在不良标定性,并且通常倾向于在潜在的答案中分配显著的权重。
完成下面两步后,将自动完成登录并继续当前操作。