本研究提出了一种文本模拟家庭环境,用于基准测试大语言模型(LLMs)在实际推理中的能力。研究表明,环境复杂性和游戏限制会影响模型表现,LLMs在简明行动规划方面面临挑战。
本研究基于自由能原理,提出了一种目标导向的行动规划模型,结合静态感知和动态运动,优化状态估计。通过强化学习,探索自主发现新目标的过程,并在多种环境中验证其有效性。同时,研究探讨了知识表示和状态学习的新理论框架,强调目标灵活性与策略复杂性的平衡,为智能体在低资源环境下的学习提供新视角。
完成下面两步后,将自动完成登录并继续当前操作。