基于规则的强化学习(RL/RFT)显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数,精选高质量样本,并采用GRPO算法,显著改善了模型在不同平台的表现,验证了数据质量的重要性和强化学习的潜力。
扩散模型在生成式AI中表现优异,尤其在图像合成任务中。研究表明,稀疏性正则化能够降低计算复杂度、提高收敛速度,从而优化模型效率。实验结果验证了该正则化方法在生成高质量样本方面的优势。
本研究提出了一种无训练的安全去噪器,旨在解决扩散模型生成不当内容和侵犯版权的问题。通过修改采样轨迹,利用否定集避免特定数据分布区域,实验证明该方法能够高效生成高质量样本,同时规避不安全内容,展示了其在安全利用扩散模型方面的潜力。
本文提出了一种新算法MRS(均值回归采样器),旨在提高均值回归扩散模型的生成效率。该算法通过解决反向时间随机微分方程,减少高质量样本的采样步骤,提升采样速度10至20倍,同时保持样本质量。
上海交通大学的研究表明,LIMO模型仅用817条高质量样本在数学推理上超越了许多大型模型,挑战了“更大即更强”的观念,强调激活模型潜能比依赖海量数据更重要,展示了“少即是多”的有效性。
本研究提出了一种贝叶斯流网络,旨在解决新药设计中生成高于训练空间属性的分布外分子的挑战。该网络能够高效生成高质量的分布外样本,并引入半自回归的训练/采样方法,显著提升模型性能。
本研究提出了一种快捷模型,解决了扩散模型和流匹配模型生成过程中的高成本和慢速问题。该模型通过单一网络和训练阶段,实现快速生成高质量样本,并可调整步长,在多种采样步预算下表现优异,具有重要应用潜力。
该论文介绍了一种新颖的无监督多模态聚类方法(UMC),通过利用非语言信息来辨识复杂语义,并通过动态选择高质量样本来学习表示,从而在聚类度量方面取得了显著提高。
该研究提出了一种新的度量标准,用于评估无图像参考的标题文本的具体性和相关性。该方法利用强基模型衡量多模态表示中的视觉-语义信息损失,并证明与人类对文本具体性的评估相关。同时,使用该度量标准进行筛选可以选择高质量的样本,以进行高效训练。
完成下面两步后,将自动完成登录并继续当前操作。