小红花·文摘

本研究提出SWE-RL方法，将强化学习应用于大型语言模型（LLM）推理，通过基于规则的奖励机制，使LLM从开源软件数据中学习，最终实现41.0%的解决率，展现出优越的推理能力。