美团技术团队 ·

AAAI 2026 | 美团技术团队学术论文精选

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

美团技术团队在AAAI会议上发表了8篇论文，涉及大模型推理、退火策略和强化学习等领域，提出了多种优化模型推理效率和性能的方法，为研究者提供理论和实践参考。

🎯

关键要点

美团技术团队在AAAI会议上发表了8篇论文，涵盖多个技术领域。
论文探讨了大模型推理、退火策略、过程奖励模型、强化学习等主题。
提出可验证的过程奖励机制（VSRM），优化模型推理效率。
研究退火策略对大型语言模型训练性能的影响，提出新的缩放法则公式。
过程奖励模型（PRMs）在数学推理到代码生成任务中的跨域泛化能力。
提出CDAS动态采样方法，提升强化学习中的问题采样效率。
ViType框架解决视觉文本渲染中的字符准确性问题，提升生成质量。
双源反事实融合模型（DSCF）提高高维组合干预场景下的预测准确性。
压缩后排序（C2R）框架提升列表重排序的效率和性能。
MACRec框架通过跨模态量化与对齐机制提升生成式推荐性能。

🔎

延伸解读

大模型推理的优化策略

美团技术团队提出的可验证过程奖励机制（VSRM）为大模型推理提供了新的解决方案。通过奖励有效步骤并惩戒无效步骤，VSRM不仅能缩短输出长度，还能提升推理效率。这一机制的有效性在多种数学基准测试中得到了验证，显示出其在实际应用中的潜力。

退火策略的影响与应用

在大型语言模型训练中，退火策略的选择对模型性能至关重要。研究表明，不同的批次大小和学习率调度器会显著影响训练曲线。因此，优化退火策略不仅能提高训练效率，还能为模型性能提供更精确的理论指导，帮助研究者在实际应用中做出更合理的选择。

跨域泛化能力的探索

过程奖励模型（PRMs）在数学推理和代码生成任务中的跨域泛化能力令人瞩目。研究发现，经过数学数据集训练的PRMs在代码生成任务中的表现与专门针对代码训练的模型相当，这为模型的应用范围提供了新的视角，尤其是在资源受限的情况下，展现出强大的适应能力。

视觉文本渲染的技术突破

ViType框架通过字形级理解能力解决了视觉文本渲染中的字符准确性问题，提升了生成质量。这一技术在电商营销等领域的应用潜力巨大，能够有效减少因字符失真导致的用户体验问题，为智能设计提供了可靠的技术支持。

❓

延伸问答

美团技术团队在AAAI会议上发表了哪些主题的论文？

美团技术团队在AAAI会议上发表的论文主题包括大模型推理、退火策略、过程奖励模型、强化学习和视觉文本渲染等。

可验证的过程奖励机制（VSRM）有什么作用？

VSRM通过奖励有效步骤和惩戒无效步骤，优化模型推理过程，能够大幅缩减输出长度并提升推理效率。

退火策略在大型语言模型训练中的重要性是什么？

退火策略影响模型性能，研究表明不同的批次大小和学习率调度器会导致显著不同的训练曲线，提出了新的缩放法则公式以优化训练效率。

过程奖励模型（PRMs）在跨域泛化能力方面的表现如何？

PRMs在数学推理和代码生成任务中表现出强大的跨域适应能力，能够在不同任务间保持良好的性能。

CDAS动态采样方法的优势是什么？

CDAS通过将模型能力与问题难度显式对齐，提升了采样效率和模型性能，克服了传统采样策略的不足。

ViType框架如何提升视觉文本渲染的准确性？

ViType框架通过视觉问答机制和多模态扩散Transformer实现文本与字形的显式对齐，从而提升字符准确率和生成质量。

🏷️