麻省理工学院的研究人员开发了一种框架,利用大型语言模型(LLM)解决复杂优化问题。用户通过自然语言描述问题,LLM将其转化为数学模型并调用优化求解器。该框架在九个复杂挑战中成功率达到85%,显著高于传统方法。未来,研究人员希望LLMFP能处理图像输入,以应对更复杂的规划任务。
本研究提出了ACPBench Hard,以评估现有模型在规划任务中的推理能力。结果显示,最先进的语言模型在这些任务中的准确率未超过65%,表明仍需改进。
DeepMind的新研究“Mind Evolution”结合遗传算法,将大语言模型在规划任务中的成功率从5%提升至95%。该方法无需微调,显著降低成本,能够直接处理自然语言问题,避免了传统方法的复杂性。实验结果显示,Mind Evolution在各种任务中表现优异,尤其在复杂任务中更具优势。
亚利桑那州立大学的研究表明,o1-preview在复杂规划任务中表现优于o1-mini,尤其在Blockworlds任务中准确率达到98%,而mini仅为56.6%。尽管o1-preview在规划能力上表现出色,但在识别不可解问题和处理长任务时仍有不足,且成本较高,需权衡性能与成本。
本文介绍了Kc语言及其在规划任务中的应用,探讨了复杂性和逻辑程序转化的方法。研究表明,基于答案集规划的方法在解决复杂问题方面有效,并提出了结合自动学习和规划的技术,展示了在多种实验中的有效性和性能提升。
本文研究了大语言模型(LLMs)在规划任务中的能力,发现其自主生成可执行计划的成功率仅为3%。提出了LLM + P框架,结合经典计划器的优点,有效解决规划问题。AdaPlanner通过闭环反馈改进计划生成,实验表明其在复杂环境中表现优于现有算法。此外,研究探讨了LLMs与经典规划方法结合的潜力,提出了新方法SimPlan和PDoctor,以提高规划能力并检测错误。
本研究探讨大型语言模型(LLMs)在规划任务中的应用,发现其在将自然语言目标转化为结构化计划方面表现有限,尤其在数字和物理推理任务中。通过结合传统规划器与LLMs,提出了LLM + P框架,有效解决规划问题。此外,研究开发了基于LLMs的计划能力评估,显示自主生成可执行计划的成功率仅约3%。
本文重新评估了自动驾驶系统的规划任务评估方法,提出了一种基于多层感知器(MLP)的方法,利用原始传感器数据直接输出未来轨迹。在nuScenes数据集上,该方法实现了先进的规划性能,平均L2错误降低约30%。同时,分析了规划任务的关键因素,提出了新的评估指标以解决现有基准测试的偏见问题,并建议学术界重新审视相关研究。
大型语言模型(LLMs)在自然语言处理和推理任务中表现优异,但资源需求高。研究提出了一种混合方法SimPlan,评估其在规划任务中的表现,发现LLMs在自主规划方面能力有限,但在启发式模式下表现较好。该研究旨在推动LLMs在自动规划中的应用。
本文提出了一种新型系统,利用语言模型进行多步逻辑推理,并结合显式计划以提高推理决策的准确性。实验结果显示,该系统在多项选择题任务中表现优异,显式计划对性能至关重要。此外,研究探讨了将自然语言指令转化为可行行动序列的方式,并评估了大型语言模型在规划任务中的能力,发现其成功率有限。未来希望能更好地融合语言模型与形式规划的优点。
完成下面两步后,将自动完成登录并继续当前操作。