本研究提出了一种新的多臂老虎机算法CYANEA,旨在解决大型语言模型在程序合成中的表现不均衡问题。该算法优化了符号求解器和提示选择,能够提高37.2%的查询解决率。
本论文介绍了SYRELM架构,通过符号求解器将自然语言算术问题转化为形式化语言描述,并通过策略梯度强化学习训练适应的LM,实现合理的算术推理。该方法在准确性上有显著改进,并易于诊断、解释和使用。
完成下面两步后,将自动完成登录并继续当前操作。