本研究探讨了大型语言模型(LLMs)在模拟调查响应中的可靠性,提出了一种自适应选择模拟响应数量的方法,以确保有效覆盖并量化LLM与目标人群之间的错位程度。
本研究提出了一种自适应选择后剪枝(ASAP)方法,以解决深度强化学习在在线3D装箱问题中的适应性和泛化不足。实验结果表明,ASAP在新实例上表现优异。
本研究提出了一种双重主动奖励学习算法,通过选择对话和教师提升数据质量,结合悲观强化学习和自适应选择策略,理论上证明了奖励估计器的推广方差最小。实验显示该算法优于现有技术。
本文研究了Transformer模型在学习实值函数方面的局限性,发现其在复杂任务上性能下降。同时,Transformer可以学习实现不同算法来解决一个任务,并自适应地选择更高效的算法。预训练的大语言模型可以在不在训练集中的预测任务上竞争。
完成下面两步后,将自动完成登录并继续当前操作。