本研究探讨大型语言模型(LLMs)是否通过上下文学习进行结构化推理,结果发现LLMs通常存在偏见的先验,但能够在上下文证据的影响下以贝叶斯方式进行更新。
本研究在部分可观察的马尔可夫决策过程中引入代理模型,扩展至多智能体场景。代理通过贝叶斯更新维护信念,并利用置信状态映射寻找最优方案。尽管模型不可直接操控或观察,收敛率和价值函数的分段线性等重要特性依然成立。
本研究将代理模型纳入多智能体情景下的部分可观察马尔可夫决策过程(POMDPs),通过贝叶斯更新维护信念并求得最优方案。证明了POMDPs的重要特性在该框架下仍然成立。
完成下面两步后,将自动完成登录并继续当前操作。