本研究提出了一种通过自生成示例数据库提升大型语言模型代理在顺序决策任务中的性能的方法。研究表明,代理通过积累成功经验,表现显著提高,效果与复杂的任务特定方法相当,验证了自动构建轨迹数据库的有效性。
本研究提出了一种后验与多样性协同的任务采样方法(PDTS),旨在解决顺序决策中的任务稳健适应问题,增强零样本和少样本的适应能力,加速学习过程。
本研究提出了一种新隐私范式,针对现有隐私框架在顺序决策系统中的不足,强调在医疗和自动驾驶等高风险领域开发新理论和机制以有效保护隐私。
本研究提出了一种新的时间公平框架,旨在动态资源分配中平衡公平性与效率。该方法结合历史折扣机制,增强了对人类公平感知的对齐,并提高了顺序决策的计算可行性。
文章介绍了一种顺序决策代理,目标是最大化随时间变化的未知函数。代理在每步接收观测值,并需在高概率下做出安全决策。提出的策略结合贝叶斯优化和变点检测,解决安全顺序优化问题,主要挑战是识别变点时的安全决策,避免局部最优。
完成下面两步后,将自动完成登录并继续当前操作。