小红花·文摘

从非结构化文本中提取结构化信息的 Python 库 | 开源日报 No.855

开源服务指南 ·

$rsl_rl——人形运控部署框架汇总：从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)$

rsl_rl——人形运控部署框架汇总：从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

结构之法算法之道 ·

使用SWE-Gym训练软件工程代理和验证器

Apple Machine Learning Research ·

本文探讨了大型语言模型（LLMs）在编码任务中信息获取不足的问题，提出了“debug-gym”交互式文本环境，帮助模型主动探索代码库以收集信息。实验表明，该方法提升了调试能力，并可扩展至其他信息检索任务。

debug-gym: A Text-Based Environment for Interactive Debugging

BriefGPT - AI 论文速递 ·

该研究针对矿业调度中的动态和随机性问题，提出了Mining Gym，一个可配置的开放源代码基准环境，旨在训练、测试和比较强化学习算法。研究的关键贡献在于提供了一个现实模拟环境，能够处理设备故障和运输周期变化等不确定性，从而提高矿业过程优化的效率，并促进算法之间的公平比较和实用性。

Mining-Gym：用于卡车调度的可配置强化学习基准环境

BriefGPT - AI 论文速递 ·

本研究提出RAG-Gym框架，以克服传统RAG架构在复杂问题中的局限性。通过过程监督和ReSearch架构，显著提升信息获取能力，实验结果显示性能提升达25.6%。

RAG-Gym: Optimizing Inference and Search Agents through Process Supervision

BriefGPT - AI 论文速递 ·

本文介绍了NS-Gym，一个针对非平稳马尔可夫决策过程的仿真工具包，旨在应对传统决策模型在动态环境中的挑战。NS-Gym提供标准化接口和基准问题，帮助研究者评估算法的适应性与鲁棒性。

NS-Gym: An Open Source Simulation Environment and Benchmark for Non-Stationary Markov Decision Processes

BriefGPT - AI 论文速递 ·

MLOps最佳实践 - MLOps Gym：爬行

Databricks ·

本文提出了SWE-Gym，首个用于训练实际软件工程（SWE）代理的环境，旨在填补现有培训系统的不足。通过在包含2438个真实Python任务实例的环境中训练基于语言模型的SWE代理，我们实现了在SWE-Bench Verified和Lite测试集上分别达到32.0%和26.0%的新基准，为SWE代理的研究提供了重要资源。