研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。
量化感知训练(QAT)是一种提高量化神经网络准确性的技术。研究表明,将训练分为全精度(FP)阶段和QAT阶段能获得更好的准确性。实验探讨了FP与QAT阶段的计算分配,发现QAT与FP训练的最佳比例随计算总量增加而增加,并提出了一种新的冷却和QAT融合方法,以节省计算资源。这些发现为高效的QAT规划提供了实用见解。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化爬取流程。
本研究探讨了单层变换器在无噪声和有噪声上下文推理中的近似能力与收敛行为,提出了一种贝叶斯最优的单层变换器,证明其在有限样本下以线性速率收敛到贝叶斯风险,并具备良好的泛化能力。
OpenAI 的块离散去噪扩散语言模型(BD3-LMs)结合了扩散与自回归模型,解决了生成任意长度序列的局限性。研究表明,BD3-LMs 在多个基准测试中表现出最佳困惑度,能够高效生成可变长度文档,克服了传统扩散模型的缺陷。
本研究解决了多目标对齐中基于直接偏好优化的方法所面临的偏好冲突问题。通过提出一个自我改进的直接偏好优化框架,本文实现了帕累托最优响应的生成与选择,从而有效缓解偏好冲突。实验表明,该框架在帕累托前沿的表现优于多种基线方法,具有显著的优化效果。
本研究解决了广义线性上下文赌博中的隐私学习问题,提出了一种基于重新加权回归的新方法,开发了高效算法,达到了新的后悔界限,表明联合隐私几乎是“免费”的。
本研究填补了半对偶对抗最优传输方法在统计学习方面的理论空白。通过建立泛化误差上界,揭示了这些界限与功能类的统计和数学特性之间的关系,为未来的最优传输研究指明了新方向。
本研究解决了非参数工具变量算法在识别和未识别环境下的收敛性问题,提出了一种新方法用于描述投影子空间的大小,从而首次推导出基于强$L_2$-范数的核NPIV的极小极大最优学习速率。研究表明,工具变量的强度对高效学习至关重要,并在第一阶段回归中通过采用通用谱正则化改进了原有的核NPIV算法。
作者是一名程序员和F1迷,利用线性规划算法优化F1幻想联赛,选择5名车手和2支车队以最大化得分。该工具使用glpk.js在浏览器中运行,生成满足预算和选择限制的线性程序。
本研究解决了在局部差分隐私(LDP)条件下,隐私与统计效用之间的权衡,提出了针对多项式和连续数据的私密排列检验方法。我们发现,提出的方法能够严格控制类型I错误,并在LDP约束下达到最小最大分离率,揭示了私密检验中隐私与效用之间的固有权衡。
研究比较了最短时间任务与密集奖励任务的奖励机制,发现最短时间任务能够学习更优策略并提升性能。初始策略的目标达成率是稀疏反馈下学习成功的早期指标。实验表明,在真实机器人平台上,使用常数负奖励可在两到三小时内学习基于像素的策略。
Dijkstra算法经过近70年的发展,已被证明具备普遍最优性,并能在最坏情况下实现最佳性能。多所顶尖高校的合作研究提升了该算法的效率,广泛应用于地图和网络路由等领域。
本研究针对仅能获取无规范化的变换前后分布的情况下的变更检测问题,提供了一种新的解决方案。采用基于热力学积分的对数分割近似累积和(LPA-CUSUM)算法,可以有效地无偏估计变更分布的对数比率,达到渐近最优性能。研究结果为实际参数选择提供了指导,并通过数值研究验证了方法的有效性。
本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。
本文解决了样本复杂度优化的缺口,提出了一种新颖且简单的Boosting算法,证明了其样本复杂度是最优的。该算法将训练数据分为五个相等的部分,分别运行AdaBoost,并通过多数投票结合结果,初步实验证明在大数据集上可能优于以往算法。
我们提出了WorldSense,用于评估LLMs在简单推理中的隐式世界模型的基准测试。测试结果显示,三个聊天LLMs在只有三个对象时也会出错,并且具有响应偏差。微调可以改进模型,但并不能超越约束问题空间的普适性。
通过创新的算法解决了周期性不安定性多臂赌博机问题,最大化敌对奖励并满足约束条件。算法保证了约根号T的遗憾界。
本研究针对使用线性抽样进行矩阵和向量范数的残差误差估计问题,提供了新的解决方案。通过引入稀疏矩阵作为抽样矩阵,并改进了以往的界限,本研究显著提高了抽样效率和准确性。此外,对于向量情况,首次建立了针对$\ell_p$范数($p>2$)的抽样维度上下界。这些发现为低秩近似和稀疏恢复问题的快速评估提供了极具实用价值的工具。
本文研究了量化答案集编程(ASP(Q))在多项式层次中的应用,解决了编码需要多次调用oracle的问题,特别是在优化问题中的应用。通过引入弱约束来表达组件程序中的局部优化与全局优化标准,展示了ASP(Q)的建模能力,并研究了其计算特性及复杂性。
完成下面两步后,将自动完成登录并继续当前操作。