小红花·文摘

本论文介绍了SYRELM架构，通过符号求解器将自然语言算术问题转化为形式化语言描述，并通过策略梯度强化学习训练适应的LM，实现合理的算术推理。该方法在准确性上有显著改进，并易于诊断、解释和使用。