麻省理工学院的研究人员开发了一种框架,利用大型语言模型(LLM)解决复杂优化问题。用户通过自然语言描述问题,LLM将其转化为数学模型并调用优化求解器。该框架在九个复杂挑战中成功率达到85%,显著高于传统方法。未来,研究人员希望LLMFP能处理图像输入,以应对更复杂的规划任务。
本研究提出了ACPBench Hard,以评估现有模型在规划任务中的推理能力。结果显示,最先进的语言模型在这些任务中的准确率未超过65%,表明仍需改进。
DeepMind的新研究“Mind Evolution”结合遗传算法,将大语言模型在规划任务中的成功率从5%提升至95%。该方法无需微调,显著降低成本,能够直接处理自然语言问题,避免了传统方法的复杂性。实验结果显示,Mind Evolution在各种任务中表现优异,尤其在复杂任务中更具优势。
亚利桑那州立大学的研究表明,o1-preview在复杂规划任务中表现优于o1-mini,尤其在Blockworlds任务中准确率达到98%,而mini仅为56.6%。尽管o1-preview在规划能力上表现出色,但在识别不可解问题和处理长任务时仍有不足,且成本较高,需权衡性能与成本。
本文介绍了世界上第一个真实世界的自动驾驶数据集和基准测试,用于测试机器学习规划器在多样化行驶场景中的能力。该研究分析了基于机器学习和传统方法之间的差距。
完成下面两步后,将自动完成登录并继续当前操作。