CVPR 2024 | 美团技术团队精选论文解读

CVPR 2024 | 美团技术团队精选论文解读

💡 原文中文,约6500字,阅读约需16分钟。
📝

内容提要

美团技术团队在CVPR 2024上发表了7篇论文,涵盖了OCR预训练、长尾半监督学习、图像驱动、数字人生成、视听分割和视觉叙事等领域。这些论文的研究成果有助于提高场景文本检测、图像生成和目标检测等任务的性能。

🎯

关键要点

  • 美团技术团队在CVPR 2024上发表了7篇论文,涉及多个计算机视觉领域。
  • CVPR是计算机视觉领域的顶级会议之一,影响力排名第四。
  • 论文主题包括OCR预训练、长尾半监督学习、图像生成、数字人生成、视听分割和视觉叙事等。
  • ODM方法提高了OCR任务中的文本与图像对齐性能,降低了标注成本。
  • BEM方法通过平衡和熵的混合改进了长尾半监督学习的性能。
  • LVMM模型用于预测复杂场景的光流,提升了图像动态效果的生成能力。
  • CustomListener允许用户通过自由文本自定义数字人属性,增强交互体验。
  • COMBO框架探索了视听分割中的多种双边关系,提升了分割精度。
  • StoryGen模型用于生成连贯的图像序列,推动开放式视觉叙事的发展。
  • InstaGen通过合成数据增强目标检测器的性能,展示了合成图像的应用潜力。
  • 美团科研合作致力于与高校和科研机构的合作,推动科技创新和成果转化。
➡️

继续阅读