本研究提出SWE-RL方法,将强化学习应用于大型语言模型(LLM)推理,通过基于规则的奖励机制,使LLM从开源软件数据中学习,最终实现41.0%的解决率,展现出优越的推理能力。
完成下面两步后,将自动完成登录并继续当前操作。