研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。
量化感知训练(QAT)是一种提高量化神经网络准确性的技术。研究表明,将训练分为全精度(FP)阶段和QAT阶段能获得更好的准确性。实验探讨了FP与QAT阶段的计算分配,发现QAT与FP训练的最佳比例随计算总量增加而增加,并提出了一种新的冷却和QAT融合方法,以节省计算资源。这些发现为高效的QAT规划提供了实用见解。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化爬取流程。
本研究探讨了单层变换器在无噪声和有噪声上下文推理中的近似能力与收敛行为,提出了一种贝叶斯最优的单层变换器,证明其在有限样本下以线性速率收敛到贝叶斯风险,并具备良好的泛化能力。
OpenAI 的块离散去噪扩散语言模型(BD3-LMs)结合了扩散与自回归模型,解决了生成任意长度序列的局限性。研究表明,BD3-LMs 在多个基准测试中表现出最佳困惑度,能够高效生成可变长度文档,克服了传统扩散模型的缺陷。
本研究解决了多目标对齐中基于直接偏好优化的方法所面临的偏好冲突问题。通过提出一个自我改进的直接偏好优化框架,本文实现了帕累托最优响应的生成与选择,从而有效缓解偏好冲突。实验表明,该框架在帕累托前沿的表现优于多种基线方法,具有显著的优化效果。
本研究解决了广义线性上下文赌博中的隐私学习问题,提出了一种基于重新加权回归的新方法,开发了高效算法,达到了新的后悔界限,表明联合隐私几乎是“免费”的。
本研究解决了非参数工具变量算法在识别和未识别环境下的收敛性问题,提出了一种新方法用于描述投影子空间的大小,从而首次推导出基于强$L_2$-范数的核NPIV的极小极大最优学习速率。研究表明,工具变量的强度对高效学习至关重要,并在第一阶段回归中通过采用通用谱正则化改进了原有的核NPIV算法。
作者是一名程序员和F1迷,利用线性规划算法优化F1幻想联赛,选择5名车手和2支车队以最大化得分。该工具使用glpk.js在浏览器中运行,生成满足预算和选择限制的线性程序。
本研究解决了在局部差分隐私(LDP)条件下,隐私与统计效用之间的权衡,提出了针对多项式和连续数据的私密排列检验方法。我们发现,提出的方法能够严格控制类型I错误,并在LDP约束下达到最小最大分离率,揭示了私密检验中隐私与效用之间的固有权衡。
本文研究了在机器人任务中通过自主互动学习和半监督学习动态生成奖励函数的方法。提出的中继策略学习和Optimal Transport Reward算法显著提升了机器人在复杂任务中的表现,尤其是在厨房模拟和手术机器人领域,实验结果表明这些方法在学习稠密奖励和策略优化方面具有明显优势。
Dijkstra算法经过近70年的发展,已被证明具备普遍最优性,并能在最坏情况下实现最佳性能。多所顶尖高校的合作研究提升了该算法的效率,广泛应用于地图和网络路由等领域。
本研究针对仅能获取无规范化的变换前后分布的情况下的变更检测问题,提供了一种新的解决方案。采用基于热力学积分的对数分割近似累积和(LPA-CUSUM)算法,可以有效地无偏估计变更分布的对数比率,达到渐近最优性能。研究结果为实际参数选择提供了指导,并通过数值研究验证了方法的有效性。
本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。
本文解决了样本复杂度优化的缺口,提出了一种新颖且简单的Boosting算法,证明了其样本复杂度是最优的。该算法将训练数据分为五个相等的部分,分别运行AdaBoost,并通过多数投票结合结果,初步实验证明在大数据集上可能优于以往算法。
本文探讨了通过自监督学习和上下文学习提升大型语言模型(LLMs)逻辑推理能力的方法。研究表明,微调和合成数据的有效利用显著改善模型性能,并提出了新的基准测试WorldSense,以评估模型在简单推理中的表现。此外,批评训练增强了推理能力,小模型结合树搜索算法在资源有限时表现优异。
该研究提出了多种新算法,如MAIQL、LPQL和UCWhittle,解决不安定多臂赌博机问题,利用元策略和强化学习实现渐近最优策略。这些算法在动态信道和药物依从性数据等多个领域表现优于现有方法。
本研究针对使用线性抽样进行矩阵和向量范数的残差误差估计问题,提供了新的解决方案。通过引入稀疏矩阵作为抽样矩阵,并改进了以往的界限,本研究显著提高了抽样效率和准确性。此外,对于向量情况,首次建立了针对$\ell_p$范数($p>2$)的抽样维度上下界。这些发现为低秩近似和稀疏恢复问题的快速评估提供了极具实用价值的工具。
本文探讨了基于答案集编程(ASP)的多种方法和优化策略,包括引入量词的ASP(Q)语言、基于边界约束的ASP方法,以及针对复杂约束的求解器策略。这些研究旨在提高ASP系统的求解效率和建模能力,尤其在处理NP问题和不完整信息规划方面表现突出。
该研究探讨了大型语言模型的对齐问题,提出了BoNBoN对齐方法和正则化最佳-n策略,以提高模型选择性并减少奖励欺骗。通过训练贝叶斯奖励模型,研究有效缓解了奖励过度优化问题,并提出了基于变分贝叶斯的新推断方法,优化了高方差问题,展示了最佳-n策略与KL约束的等价性。
完成下面两步后,将自动完成登录并继续当前操作。