网络学习和游戏中 LLM 代理的后悔案例研究
通过对大型语言模型代理在决策中的性能进行度量,我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互,以更好地了解这些交互环境中 LLM 代理的局限性。
本文介绍了一种新的在线学习方法,用于在大型游戏中最小化后悔。该方法通过学习函数逼近器来估计选择特定行动的后悔值,并使用无悔算法定义一系列策略。证明了该方法的正确性,并展示了在实验中可以实现比最先进的抽象技术更高质量的策略。
BriefGPT - AI 论文速递 -
通过对大型语言模型代理在决策中的性能进行度量,我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互,以更好地了解这些交互环境中 LLM 代理的局限性。
本文介绍了一种新的在线学习方法,用于在大型游戏中最小化后悔。该方法通过学习函数逼近器来估计选择特定行动的后悔值,并使用无悔算法定义一系列策略。证明了该方法的正确性,并展示了在实验中可以实现比最先进的抽象技术更高质量的策略。
热榜 Top10
标签 Top100
全部ai 语言模型 神经网络 llm linux 开源 微软 .net python 数据集 人工智能 google 算法 apple 扩散模型 安全 机器学习 苹果 java 深度学习 android rust 建模 postgresql 游戏 漏洞 机器人 ios 谷歌 mysql windows openai c# spring 函数 大模型 开发者 api gpt 教程 github chatgpt 数据库 卷积 microsoft windows 11 web nvidia mongodb 强化学习 内存 iphone 浏览器 docker 插件 security cloud 编码器 sql 基准测试 wordpress 大语言模型 程序员 黑客 联邦学习 欧盟 总结 无监督 mac postgres 解决方案 流量 入门 c++ sora generative ai 点云 工程师 一致性 重建 spring boot 视图 swift pdf 接口 网络安全 redis 单片机 硬件 visual studio git 前端 多智能体 容器 面试 kubernetes 源码 存储 马斯克 cve
赞助商
我也要赞助推荐或自荐