本文讨论了通用动作重定向(GMR)在类人机器人动作追踪中的应用。GMR通过重定向人类运动数据,克服了人类与机器人之间的结构差异。研究表明,重定向方法的选择对机器人性能至关重要,伪影如脚部滑动和穿透会影响学习效果。GMR的流程包括关键身体部位匹配、姿态对齐、局部缩放和逆运动学求解,以提高动作重定向的质量和效率。
本研究解决了多模型压缩中的任务干扰问题,提出了一种创新的压缩和检索方案,通过随机正交变换来去相关化模型参数,从而降低干扰并提升性能。该方法在视觉和语言任务中均显著改善了效果,并且可以灵活地添加或移除模型,支持高效的多模型服务。
本文针对当前图神经网络(GNN)训练中小批量构建策略忽视效率的问题,提出了一种新的方法——社区结构感知随机化小批量训练(COMM-RAND)。该方法在保持训练准确性和收敛速度的同时,通过在纯随机性与纯结构感知之间寻找平衡,显著提高了GNN训练效率。实验表明,COMM-RAND在多个图学习基准上训练时间减少了最高2.76倍(平均1.8倍),并且准确性仅下降1.79个百分点(平均0.42个百分点)。
我制作了一个简单的Python二十一点游戏。游戏开始时玩家有100美元,可以下注、要牌或停牌。庄家出牌,接近21点且不超过者获胜。通过这个项目,我学习了面向对象编程、列表和随机化的使用,以及编写清晰代码的技巧。
本研究提出了一种新方法,通过熵正则化自动发现强化学习中的采样分布,解决了手动指定环境分布的问题,展现出更好的灵活性和鲁棒性。
本文提出了一种耦合自回归生成的因果模型,解决了大规模语言模型评估中的随机化问题。研究表明,该方法在保持相同结论的情况下,样本需求减少了40%,并质疑了传统评估方法的有效性。
本研究解决了深度强化学习(DRL)在训练模型时面临的经验生成不足问题,特别是在将合成经验有效转移到现实世界中的挑战。作者提出通过在模拟训练过程中引入变量随机化来增加合成经验的多样性,从而改善先进的“从仿真到现实”技术的鲁棒性,研究结果显示这种方法可提升模型准确率并减少现实经验的需求。
本研究提出了一种可泛化的自主渗透测试框架(GAP),通过领域随机化和元强化学习解决了自主渗透测试在真实环境中的应用和泛化能力不足的问题。GAP能够在未知环境中学习策略,实现零-shot 策略迁移和快速适应,具有重要的实际应用潜力。
本文研究如何利用AI代理的可预测性以改善社会福利,揭示了混合策略仿真的复杂性及其在"一般化信任游戏"中的负面影响。同时,提出在信任可调、高度协调的挑战或隐私保护的情况下,混合策略仿真能够提高社会福利的积极结果。
本文讨论了一个关于点集的问题,即给定一个点集,任意四个点能确定至少五个不同的距离,求该点集能确定的距离数量。作者通过分析已有技术,发现只需进行一次调整即可解决问题。同时,作者提出了一个新问题,即给定一个点集,是否存在一个子集,其中的点不满足八种特定的模式。作者通过随机化方法解决了该问题,并提出了一些开放问题。
该文章介绍了一种新的基于关键词的防御方法,通过效率训练和可选随机化的改进来构建,以实现高鲁棒性和净准确性。
我们提出了一种方法,通过随机化车辆跟随模型和变道模型的参数来随机化周围车辆的驾驶风格和行为。研究发现,该方法在高保真度微观交通流下的策略具有更高的成功率和更好的计算奖励。
BehAVE 是一个视频理解框架,通过利用多样性的商用视频游戏作为领域随机化的来源,使用玩家行为来指导视频的对齐,从而实现基于一个第一人称射击 (FPS) 游戏的训练,在多个未见过的 FPS 游戏中成功传递玩家行为模式的零样本转移,并且在训练于不同类型游戏(如 Minecraft)的情况下,提高了基础模型到未见过的 FPS 游戏的零样本转移能力(最多达 22%)。
使用 Transfer Learning(TL)和随机化相结合的 Double-Dip 方法,通过降低过拟合 DNN 对隐私攻击的脆弱性,显著提高非成员的分类准确性,以及减少标签推理攻击的成功率。
本文提出了一种基于带限傅里叶展开的量子感知器(QPs)转移函数的模型,用于设计可扩展的训练过程的量子神经网络(QNNs),并添加了一种随机化的量子随机梯度下降技术,消除了样本复制的需要。该训练过程期望收敛于真实最小值,有助于提高数据效率和遵守禁止复制规则。
该研究探讨了过度参数化和随机化机器学习算法对训练数据隐私的影响,并通过分析得出了模型分布间的隐私界限。研究发现,隐私界限很大程度上由训练过程中的模型参数相对于期望梯度范数决定。同时,隐私界限的提高或降低取决于所选的初始化分布。该研究还证明了在固定隐私预算下的过度经验风险界限,并展示了隐私效用权衡与深度之间的相互作用同样受到初始化方式的影响。
该文介绍了一种基于随机化的方法,可用于处理时间序列数据的符合推理应用,考虑潜在的串行相关性。该方法在数据独立同分布或可交换时与传统方法相同,在数据不可交换时也具有近似的有效性。
该文提供了针对具有人类反馈的强化学习的理论框架,研究表明最大似然估计器在Bradley-Terry-Luce模型和Plackett-Luce模型下都能收敛,但在基于学习的奖励模型的策略时,MLE失败,而一种悲观的MLE在某些涵盖假设下提供了改进的性能策略。此外,该文证明在PL模型下,真实MLE和一个将K路比较分成两两比较的替代MLE都会收敛。
该研究提出了一种通过视觉域随机化方法来解决模拟与真实世界之间差异的问题,并在机器人操作任务中进行了基准测试。该方法在各种挑战性的操纵任务中取得了93%的成功率,并证明了模拟器训练的策略在真实场景中的视觉变化下具有更好的鲁棒性。
该文介绍了一种基于随机化的方法,用于拓展符合推理的应用,使其适用于时间序列数据,并考虑潜在的串行相关性。该方法在数据独立同分布或可交换时与传统方法相同,而在数据不可交换时也具有近似有效性。
完成下面两步后,将自动完成登录并继续当前操作。