美团技术团队 ·

CVPR 2024 | 美团技术团队精选论文解读

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

美团技术团队在CVPR 2024上发表了7篇论文，涵盖了OCR预训练、长尾半监督学习、图像驱动、数字人生成、视听分割和视觉叙事等领域。这些论文的研究成果有助于提高场景文本检测、图像生成和目标检测等任务的性能。

🎯

关键要点

美团技术团队在CVPR 2024上发表了7篇论文，涉及多个计算机视觉领域。
CVPR是计算机视觉领域的顶级会议之一，影响力排名第四。
论文主题包括OCR预训练、长尾半监督学习、图像生成、数字人生成、视听分割和视觉叙事等。
ODM方法提高了OCR任务中的文本与图像对齐性能，降低了标注成本。
BEM方法通过平衡和熵的混合改进了长尾半监督学习的性能。
LVMM模型用于预测复杂场景的光流，提升了图像动态效果的生成能力。
CustomListener允许用户通过自由文本自定义数字人属性，增强交互体验。
COMBO框架探索了视听分割中的多种双边关系，提升了分割精度。
StoryGen模型用于生成连贯的图像序列，推动开放式视觉叙事的发展。
InstaGen通过合成数据增强目标检测器的性能，展示了合成图像的应用潜力。
美团科研合作致力于与高校和科研机构的合作，推动科技创新和成果转化。

❓

延伸问答

美团在CVPR 2024上发表了哪些领域的论文？

美团在CVPR 2024上发表了涉及OCR预训练、长尾半监督学习、图像生成、数字人生成、视听分割和视觉叙事等多个领域的论文。

ODM方法在OCR任务中有什么优势？

ODM方法通过将文本提示与图像中的文本区域对齐，显著提高了OCR任务的性能，并降低了标注成本。

BEM方法如何改善长尾半监督学习的性能？

BEM方法通过平衡和熵的混合，重新平衡数据量和不确定性的类别分布，从而显著提高了长尾半监督学习的性能。

CustomListener的主要功能是什么？

CustomListener允许用户通过自由文本自定义数字人的属性，增强了与用户的交互体验。

StoryGen模型的创新之处在哪里？

StoryGen模型通过学习的自回归图像生成，能够根据给定的故事情节生成连贯的图像序列，推动开放式视觉叙事的发展。

InstaGen如何增强目标检测器的性能？

InstaGen通过合成数据训练目标检测器，利用生成的样本提高了目标检测器在开放词汇和数据稀缺情况下的性能。

🏷️

标签

CVPR OCR预训练图像生成图像驱动场景文本检测数字人生成目标检测美团美团技术团队视听分割视觉叙事论文长尾半监督学习

➡️

继续阅读

WAIC 2026收官｜范式大会亮点集锦，见证AI 2.0从技术突破走向产业实践
全球首发技术路线+全域联盟双轮破局，AI for ADANES释放先进核能新质生产力
刚刚，机器人顶会RSS三项最佳论文出炉！708篇送审，仅8篇杀入决赛
依旧是最多的华人面孔
英国电信在皇家威尔士展览会展示了5G+网络切片技术
英国电信 (BT) 和威尔士皇家农业协会正在今年的威尔士皇家农业展上使用 5G+ 网络切片技术，以帮助支持关键任务服务、支持当地企业，并在英国最大的农业盛...
Get Borderlands 3, Risk of Rain 2 and 13 other great PC games for $15
The aptly-named “2K Megahits 2026 Bundle” from Humble includes 15 Steam games...
The PlayStation replica ornament is an homage to a great, yet fragile console
You probably know the signature PlayStation boot sound. Did you know that it&...