小红花·文摘

研究表明，在多模态大模型训练中，样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法，在视觉推理和感知任务中超越传统的SFT+RL范式，提出了PISM和CMAB两种难度量化策略，显著提升了模型性能，验证了难度感知采样的有效性。

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

量子位 ·

计算最优的量化感知训练

Apple Machine Learning Research ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化爬取流程。

ICML Spotlight 2025丨追求概率质量的帕累托最优：基于广义α-β散度引导的知识蒸馏框架ABKD

机器之心 ·

本研究探讨了单层变换器在无噪声和有噪声上下文推理中的近似能力与收敛行为，提出了一种贝叶斯最优的单层变换器，证明其在有限样本下以线性速率收敛到贝叶斯风险，并具备良好的泛化能力。

单层变换器在上下文推理和分布关联学习中的下一步预测任务中是可以证明的最优

BriefGPT - AI 论文速递 ·

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

机器之心 ·

本研究解决了多目标对齐中基于直接偏好优化的方法所面临的偏好冲突问题。通过提出一个自我改进的直接偏好优化框架，本文实现了帕累托最优响应的生成与选择，从而有效缓解偏好冲突。实验表明，该框架在帕累托前沿的表现优于多种基线方法，具有显著的优化效果。

自我改进朝向帕累托最优：缓解多目标对齐中的偏好冲突

BriefGPT - AI 论文速递 ·

本研究解决了广义线性上下文赌博中的隐私学习问题，提出了一种基于重新加权回归的新方法，开发了高效算法，达到了新的后悔界限，表明联合隐私几乎是“免费”的。

线性上下文赌博中的近似最优隐私学习

BriefGPT - AI 论文速递 ·

本研究解决了非参数工具变量算法在识别和未识别环境下的收敛性问题，提出了一种新方法用于描述投影子空间的大小，从而首次推导出基于强$L_2$-范数的核NPIV的极小极大最优学习速率。研究表明，工具变量的强度对高效学习至关重要，并在第一阶段回归中通过采用通用谱正则化改进了原有的核NPIV算法。

非参数工具回归通过核方法是极小极大最优的

BriefGPT - AI 论文速递 ·

利用线性规划评估（历史最优）F1幻想车队

DEV Community ·

本研究解决了在局部差分隐私(LDP)条件下，隐私与统计效用之间的权衡，提出了针对多项式和连续数据的私密排列检验方法。我们发现，提出的方法能够严格控制类型I错误，并在LDP约束下达到最小最大分离率，揭示了私密检验中隐私与效用之间的固有权衡。

局部差分隐私下的最小最大最优两样本检验

BriefGPT - AI 论文速递 ·

本文研究了在机器人任务中通过自主互动学习和半监督学习动态生成奖励函数的方法。提出的中继策略学习和Optimal Transport Reward算法显著提升了机器人在复杂任务中的表现，尤其是在厨房模拟和手术机器人领域，实验结果表明这些方法在学习稠密奖励和策略优化方面具有明显优势。

基于时间最优传输奖励的机器人策略学习

BriefGPT - AI 论文速递 ·

Dijkstra算法经过近70年的发展，已被证明具备普遍最优性，并能在最坏情况下实现最佳性能。多所顶尖高校的合作研究提升了该算法的效率，广泛应用于地图和网络路由等领域。

本科经典算法Dijkstra，被证明是普遍最优了：最坏情况性能也最优！

量子位 ·

本研究针对仅能获取无规范化的变换前后分布的情况下的变更检测问题，提供了一种新的解决方案。采用基于热力学积分的对数分割近似累积和（LPA-CUSUM）算法，可以有效地无偏估计变更分布的对数比率，达到渐近最优性能。研究结果为实际参数选择提供了指导，并通过数值研究验证了方法的有效性。

无规范化变换前后分布的渐近最优变更检测

BriefGPT - AI 论文速递 ·

本研究解决了在折扣MDP中优化风险厌恶目标的难题，提出了在熵风险度量（ERM）和熵风险价值（EVaR）风险度量下，使用状态政策来简化分析和实现过程。研究表明，相较于折扣标准，总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。

在风险厌恶总奖励MDP中，状态政策是最优的

BriefGPT - AI 论文速递 ·

本文解决了样本复杂度优化的缺口，提出了一种新颖且简单的Boosting算法，证明了其样本复杂度是最优的。该算法将训练数据分为五个相等的部分，分别运行AdaBoost，并通过多数投票结合结果，初步实验证明在大数据集上可能优于以往算法。

最优弱到强学习的多面性

BriefGPT - AI 论文速递 ·

本文探讨了通过自监督学习和上下文学习提升大型语言模型（LLMs）逻辑推理能力的方法。研究表明，微调和合成数据的有效利用显著改善模型性能，并提出了新的基准测试WorldSense，以评估模型在简单推理中的表现。此外，批评训练增强了推理能力，小模型结合树搜索算法在资源有限时表现优异。

更小、更弱但更优：通过计算最优采样训练大型语言模型推理器

BriefGPT - AI 论文速递 ·

该研究提出了多种新算法，如MAIQL、LPQL和UCWhittle，解决不安定多臂赌博机问题，利用元策略和强化学习实现渐近最优策略。这些算法在动态信道和药物依从性数据等多个领域表现优于现有方法。

GINO-Q：学习一种渐近最优的索引策略用于无休止多臂老虎机

BriefGPT - AI 论文速递 ·

本研究针对使用线性抽样进行矩阵和向量范数的残差误差估计问题，提供了新的解决方案。通过引入稀疏矩阵作为抽样矩阵，并改进了以往的界限，本研究显著提高了抽样效率和准确性。此外，对于向量情况，首次建立了针对$\ell_p$范数（$p>2$）的抽样维度上下界。这些发现为低秩近似和稀疏恢复问题的快速评估提供了极具实用价值的工具。

矩阵和向量范数的残差误差估计的最优抽样

BriefGPT - AI 论文速递 ·

本文探讨了基于答案集编程（ASP）的多种方法和优化策略，包括引入量词的ASP(Q)语言、基于边界约束的ASP方法，以及针对复杂约束的求解器策略。这些研究旨在提高ASP系统的求解效率和建模能力，尤其在处理NP问题和不完整信息规划方面表现突出。

量化超最优答案集

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型的对齐问题，提出了BoNBoN对齐方法和正则化最佳-n策略，以提高模型选择性并减少奖励欺骗。通过训练贝叶斯奖励模型，研究有效缓解了奖励过度优化问题，并提出了基于变分贝叶斯的新推断方法，优化了高方差问题，展示了最佳-n策略与KL约束的等价性。

变分最优 N 对齐

BriefGPT - AI 论文速递 ·