小红花·文摘

识别过度自信的大型语言模型的更好方法

MIT News - Artificial intelligence ·

本研究通过自我一致性和思维链技术，提升了云端大型语言模型在数学推理中的准确性。提出的MathGenie和MathScaleQA方法，通过生成高质量的数学问题和数据集，显著提高了模型性能，解决了结构化数据处理的困难，并为后续开源研究提供了重要资源。

通过从零开始的可扩展问题合成释放大语言模型的推理能力

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在自我一致性方面的表现，提出了一种新的自我一致性方法（USC），通过多个候选答案选择最一致的结果。研究表明，USC在数学推理和代码生成等任务中显著提升了性能，并在开放式生成任务中有效利用多个样本。尽管一致性有所提高，但在特定主题上仍存在不一致性问题。

一致预测何时可能是正确预测？

BriefGPT - AI 论文速递 ·

本文探讨了通过自我一致性和思维链技术改善云端大型语言模型的分布式同义问题，提出了结构化思维链和自主启发式链式思考框架，显著提高了多轮问答的准确性和推理能力。研究还涉及医疗任务自动化、知识图谱引导的多跳推理及定制化语言模型提示，展示了在多个领域的应用潜力和性能提升。

FSM: 基于有限状态机的多跳问答零样本提示范式

BriefGPT - AI 论文速递 ·

本研究提出了一种在资源受限的机器人系统中实现低延迟决策的学习视觉动作控制方法。通过自我一致性获得Consistency Policy，与其他方法比较后发现，Consistency Policy可以提高推断速度并保持竞争性的成功率。

一致性策略：通过一致性蒸馏加速视觉动作策略

BriefGPT - AI 论文速递 ·

本文探讨大型语言模型（LLMs）的忠诚度评估，提出了一种基于自我一致性的测量方法CC-SHAP，强调模型输出的自我一致性与内部工作的重要性。通过反事实输入编辑器和生成的自然语言解释（NLEs）重建输入，评估模型的忠实度。研究发现模型大小与忠实度之间存在复杂关系，并提出生成解释框架xLLM以提高解释质量。

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

BriefGPT - AI 论文速递 ·

OpenAI模型套件上的行为实验发现，模型在含糊的整数序列填充任务中的平均一致性介于67％和82％之间，且随着模型能力的提高而增加。模型在自我一致性上存在不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

大规模语言模型在歧义下的自一致性

BriefGPT - AI 论文速递 ·