小红花·文摘

本文介绍了多种基于大型语言模型（LLMs）的规划方法，包括DDN框架、LLM-Planner和SimPlan，旨在解决复杂任务的过程规划问题。研究表明，结合视觉信息和弱监督学习可以提升规划性能，尤其在教学视频中。CLIPS模型通过贝叶斯推理实现灵活的指令跟随，RAP模型通过自适应方法优化过程规划，MM-PlanLLM增强了多模态输入输出的处理能力。

提议、评估、搜索：利用大语言模型实现教学视频中的目标导向规划

BriefGPT - AI 论文速递 ·

本文介绍了一种基于transformer的弱监督学习方法，旨在从自然语言指令中提取过程规划，避免昂贵的视频标注。研究表明，该方法在多个数据集上优于全监督模型，并提出了多种新框架和模型以提高程序理解任务的精度。

为何不使用教科书？知识增强的教学视频程序规划

BriefGPT - AI 论文速递 ·

本研究提出了一种基于事件引导的范式，用于从带有文本监督的指令视频中进行过程规划的任务。该模型采用遮盖和预测方法进行关系挖掘，并将事件信息编码到顺序建模过程中来支持过程规划。实验证明了该模型的有效性。

GePSAn：烹饪视频中的生成式步骤预测

BriefGPT - AI 论文速递 ·