小红花·文摘

Databricks Agent Bricks通过TAO和ALHF方法自动化企业AI开发

InfoQ ·

本研究提出了QualiSpeech数据集，以解决语音质量评估中的注释不足问题。该数据集涵盖11个关键方面，并提供自然语言反馈。实验结果表明，经过微调的听觉大语言模型能够有效提升质量评估的准确性和可靠性。

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions

BriefGPT - AI 论文速递 ·

本文介绍了一个包含8.5K小学数学问题的数据集GSM8K，探讨了提升多步推理模型性能的方法，包括使用验证器和奖励模型。研究表明，自我纠正训练和自然语言反馈显著提高了模型在数学推理任务中的准确性。Eurus模型在多个基准测试中表现优异，展示了其在复杂推理任务中的潜力。

生成验证器：将奖励建模作为下一标记预测

BriefGPT - AI 论文速递 ·

北大千问团队推出了数学专用版CriticGPT，名为Math-Minos。该模型通过引入逐步的自然语言反馈作为理由标签，提供更深入的解释，丰富了验证器的训练信息。Math-Minos在ORM和PRM任务设置中展现出了优越的性能，特别是在ORM设置中。研究团队希望这项工作能够推动大型语言模型在复杂推理任务上的能力。

北大千问团队推出数学专用版CriticGPT，找茬让大模型进步更快

量子位 ·

该研究探讨了大型语言模型（LLMs）在机器人规划中的应用，强调自然语言反馈对提升机器人任务执行能力的重要性。研究发现，LLMs能够将自然语言目标转化为结构化计划，但在数字和物理推理任务中表现不佳。提出的交互式规划方法通过机器人收集信息，降低设计成本，并在多智能体合作框架中取得良好效果，为未来研究提供了新思路。

自然语言作为策略：利用 LLMs 进行坐标级体验控制的推理

BriefGPT - AI 论文速递 ·