大型语言模型(LLMs)在推理中引入了中间思维链(CoT)能力。研究表明,自一致性可作为思维必要性的指标,较低的一致性表明查询需要更多思考。基于此,提出了Sonata方法,能够自适应分配思维预算,优化性能与效率的平衡。实验结果显示,Sonata在保持准确率的同时,思维令牌减少20%至80%。
程轶在微软亚洲研究院的十个月实习中,研究大语言模型的自一致性机制,克服了多项挑战。通过双导师指导,她提升了科研能力,重视简洁性和实际应用,享受科研过程,坚定追求挑战与成长。
本研究探讨了自一致性在聚合多样性随机样本时的动态机制,提出了一种基于置信度的机制,通过动态调整解码温度来提高采样效率和准确性。实验结果表明,该方法在数学推理任务中优于固定多样性基准。
本研究提出了PROVE框架,通过程序验证方法提升大语言模型在数学推理中的自一致性,过滤不正确的推理路径。实验结果表明,PROVE显著提高了模型在数学基准测试中的准确性,展现了其作为有效工具的潜力。
本文探讨了预训练语言模型生成文本的真实性,提出了一种多视角自一致性(MPSC)解码策略,显著提升了生成任务的性能。研究发现模型在自我一致性方面存在不良标定性,并通过信息理论方法SH2增强了模型的真实解码能力。此外,提出的ActCab和CoDec方法在问答基准上提高了模型的真实性,强调了置信度信号的重要性。
本文介绍了一种新方法,通过扩展自一致性应用和使用轻量级相似函数,提升大规模预训练语言模型的生成质量和一致性。研究发现模型在自我一致性上存在不良标定性,并提出通过监督学习和强化学习对齐过程来改善模型性能的策略,同时揭示了指令跟踪模型的局限性,并提出增强模型鲁棒性的方法。
完成下面两步后,将自动完成登录并继续当前操作。