本文探讨了KL散度的三种估计方法及其优缺点:原始估计量(k₁)无偏但方差高,适合理论验证;平方对数估计量(k₂)在小差异情况下偏差可忽略,适合快速诊断;控制变量法(k₃)实现了无偏和低方差的平衡,适用于精确评估概率分布差异的场景。建议根据需求选择合适的估计量。
本文研究了强化学习中DQNs的混沌特性,分析其在不同任务中的适应能力。实验显示,当Q值估计更接近真实值时,模型适应新任务更快。这为选择高效算法提供了指导。
我们介绍了一种用于多标签文本分类的 DEbiased Nearest Neighbors (DENN) 框架,通过去偏对比学习策略和去偏置信度估计策略,提高标签共现的邻居一致性和预测的自适应组合。实验证明该方法有效,且没有引入额外参数。
本文介绍了支持高达32,768个令牌的长上下文LLMs,通过持续预训练和上采样长文本数据集构建模型。模型在语言模型、合成上下文探索任务和研究基准上取得了一致的改进。通过指令调整过程,70B变体在长上下文任务中超过了gpt-3.5-turbo-16k的整体性能。文章还对Llama的位置编码和预训练过程进行了深入分析。
该研究介绍了新的“全面优化毒性”(TET)数据集,通过评估几种流行的LLMs,揭示了正常提示下可能隐藏的LLMs中的毒性。
该研究通过垂直方向解决了曼哈顿框架和相机焦距估计的问题,并提出了两个新的解算器和一种非最小方法来增强优化性能。实验证明该方法在准确性和运行时间方面优于现有技术。
我们研究了不完全图像分割的问题,通过构建自动管道来确定真实的部分遮挡对象的不完全真值分割掩膜,并通过两种架构变体探索了在野外处理不完全完成任务的方法。我们的方法在不完全分割数据集上取得了最好的性能。
此研究论文讨论了预测点击率时遇到的问题,即如何处理短停留时间和意外点击,并介绍了一种新方法将意外点击的正向作用分配给负向事件以提高收入。
本文提出了一种无偏的动作依赖基线,以降低深度强化学习中策略梯度方法的高方差问题。该方法利用随机策略的结构,适用于长时间跨度和高维动作空间,实验表明其能加速学习,适合高维控制问题,并可扩展至部分观察和多智能体任务。
完成下面两步后,将自动完成登录并继续当前操作。