小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

量子位
量子位 · 2025-11-28T04:16:50Z
计算最优的量化感知训练

量化感知训练(QAT)是一种提高量化神经网络准确性的技术。研究表明,将训练分为全精度(FP)阶段和QAT阶段能获得更好的准确性。实验探讨了FP与QAT阶段的计算分配,发现QAT与FP训练的最佳比例随计算总量增加而增加,并提出了一种新的冷却和QAT融合方法,以节省计算资源。这些发现为高效的QAT规划提供了实用见解。

计算最优的量化感知训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-01T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化爬取流程。

ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD

机器之心
机器之心 · 2025-06-09T05:08:34Z

本研究探讨了单层变换器在无噪声和有噪声上下文推理中的近似能力与收敛行为,提出了一种贝叶斯最优的单层变换器,证明其在有限样本下以线性速率收敛到贝叶斯风险,并具备良好的泛化能力。

单层变换器在上下文推理和分布关联学习中的下一步预测任务中是可以证明的最优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

OpenAI 的块离散去噪扩散语言模型(BD3-LMs)结合了扩散与自回归模型,解决了生成任意长度序列的局限性。研究表明,BD3-LMs 在多个基准测试中表现出最佳困惑度,能够高效生成可变长度文档,克服了传统扩散模型的缺陷。

逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

机器之心
机器之心 · 2025-03-15T16:08:00Z

本研究解决了多目标对齐中基于直接偏好优化的方法所面临的偏好冲突问题。通过提出一个自我改进的直接偏好优化框架,本文实现了帕累托最优响应的生成与选择,从而有效缓解偏好冲突。实验表明,该框架在帕累托前沿的表现优于多种基线方法,具有显著的优化效果。

自我改进朝向帕累托最优:缓解多目标对齐中的偏好冲突

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究解决了广义线性上下文赌博中的隐私学习问题,提出了一种基于重新加权回归的新方法,开发了高效算法,达到了新的后悔界限,表明联合隐私几乎是“免费”的。

线性上下文赌博中的近似最优隐私学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究填补了半对偶对抗最优传输方法在统计学习方面的理论空白。通过建立泛化误差上界,揭示了这些界限与功能类的统计和数学特性之间的关系,为未来的最优传输研究指明了新方向。

半对偶对抗神经最优传输求解器的统计学习视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究解决了非参数工具变量算法在识别和未识别环境下的收敛性问题,提出了一种新方法用于描述投影子空间的大小,从而首次推导出基于强$L_2$-范数的核NPIV的极小极大最优学习速率。研究表明,工具变量的强度对高效学习至关重要,并在第一阶段回归中通过采用通用谱正则化改进了原有的核NPIV算法。

非参数工具回归通过核方法是极小极大最优的

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-29T00:00:00Z
利用线性规划评估(历史最优)F1幻想车队

作者是一名程序员和F1迷,利用线性规划算法优化F1幻想联赛,选择5名车手和2支车队以最大化得分。该工具使用glpk.js在浏览器中运行,生成满足预算和选择限制的线性程序。

利用线性规划评估(历史最优)F1幻想车队

DEV Community
DEV Community · 2024-11-21T22:30:20Z

本研究解决了在局部差分隐私(LDP)条件下,隐私与统计效用之间的权衡,提出了针对多项式和连续数据的私密排列检验方法。我们发现,提出的方法能够严格控制类型I错误,并在LDP约束下达到最小最大分离率,揭示了私密检验中隐私与效用之间的固有权衡。

局部差分隐私下的最小最大最优两样本检验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

研究比较了最短时间任务与密集奖励任务的奖励机制,发现最短时间任务能够学习更优策略并提升性能。初始策略的目标达成率是稀疏反馈下学习成功的早期指标。实验表明,在真实机器人平台上,使用常数负奖励可在两到三小时内学习基于像素的策略。

基于时间最优传输奖励的机器人策略学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

Dijkstra算法经过近70年的发展,已被证明具备普遍最优性,并能在最坏情况下实现最佳性能。多所顶尖高校的合作研究提升了该算法的效率,广泛应用于地图和网络路由等领域。

本科经典算法Dijkstra,被证明是普遍最优了:最坏情况性能也最优!

量子位
量子位 · 2024-10-27T04:54:19Z

本研究针对仅能获取无规范化的变换前后分布的情况下的变更检测问题,提供了一种新的解决方案。采用基于热力学积分的对数分割近似累积和(LPA-CUSUM)算法,可以有效地无偏估计变更分布的对数比率,达到渐近最优性能。研究结果为实际参数选择提供了指导,并通过数值研究验证了方法的有效性。

无规范化变换前后分布的渐近最优变更检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-18T00:00:00Z

本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。

在风险厌恶总奖励MDP中,状态政策是最优的

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-30T00:00:00Z

本文解决了样本复杂度优化的缺口,提出了一种新颖且简单的Boosting算法,证明了其样本复杂度是最优的。该算法将训练数据分为五个相等的部分,分别运行AdaBoost,并通过多数投票结合结果,初步实验证明在大数据集上可能优于以往算法。

最优弱到强学习的多面性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-30T00:00:00Z

我们提出了WorldSense,用于评估LLMs在简单推理中的隐式世界模型的基准测试。测试结果显示,三个聊天LLMs在只有三个对象时也会出错,并且具有响应偏差。微调可以改进模型,但并不能超越约束问题空间的普适性。

更小、更弱但更优:通过计算最优采样训练大型语言模型推理器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

通过创新的算法解决了周期性不安定性多臂赌博机问题,最大化敌对奖励并满足约束条件。算法保证了约根号T的遗憾界。

GINO-Q:学习一种渐近最优的索引策略用于无休止多臂老虎机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

本研究针对使用线性抽样进行矩阵和向量范数的残差误差估计问题,提供了新的解决方案。通过引入稀疏矩阵作为抽样矩阵,并改进了以往的界限,本研究显著提高了抽样效率和准确性。此外,对于向量情况,首次建立了针对$\ell_p$范数($p>2$)的抽样维度上下界。这些发现为低秩近似和稀疏恢复问题的快速评估提供了极具实用价值的工具。

矩阵和向量范数的残差误差估计的最优抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-16T00:00:00Z

本文研究了量化答案集编程(ASP(Q))在多项式层次中的应用,解决了编码需要多次调用oracle的问题,特别是在优化问题中的应用。通过引入弱约束来表达组件程序中的局部优化与全局优化标准,展示了ASP(Q)的建模能力,并研究了其计算特性及复杂性。

量化超最优答案集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码