💡
原文中文,约6500字,阅读约需16分钟。
📝
内容提要
美团技术团队在CVPR 2024上发表了7篇论文,涵盖了OCR预训练、长尾半监督学习、图像驱动、数字人生成、视听分割和视觉叙事等领域。这些论文的研究成果有助于提高场景文本检测、图像生成和目标检测等任务的性能。
🎯
关键要点
- 美团技术团队在CVPR 2024上发表了7篇论文,涉及多个计算机视觉领域。
- CVPR是计算机视觉领域的顶级会议之一,影响力排名第四。
- 论文主题包括OCR预训练、长尾半监督学习、图像生成、数字人生成、视听分割和视觉叙事等。
- ODM方法提高了OCR任务中的文本与图像对齐性能,降低了标注成本。
- BEM方法通过平衡和熵的混合改进了长尾半监督学习的性能。
- LVMM模型用于预测复杂场景的光流,提升了图像动态效果的生成能力。
- CustomListener允许用户通过自由文本自定义数字人属性,增强交互体验。
- COMBO框架探索了视听分割中的多种双边关系,提升了分割精度。
- StoryGen模型用于生成连贯的图像序列,推动开放式视觉叙事的发展。
- InstaGen通过合成数据增强目标检测器的性能,展示了合成图像的应用潜力。
- 美团科研合作致力于与高校和科研机构的合作,推动科技创新和成果转化。
❓
延伸问答
美团在CVPR 2024上发表了哪些领域的论文?
美团在CVPR 2024上发表了涉及OCR预训练、长尾半监督学习、图像生成、数字人生成、视听分割和视觉叙事等多个领域的论文。
ODM方法在OCR任务中有什么优势?
ODM方法通过将文本提示与图像中的文本区域对齐,显著提高了OCR任务的性能,并降低了标注成本。
BEM方法如何改善长尾半监督学习的性能?
BEM方法通过平衡和熵的混合,重新平衡数据量和不确定性的类别分布,从而显著提高了长尾半监督学习的性能。
CustomListener的主要功能是什么?
CustomListener允许用户通过自由文本自定义数字人的属性,增强了与用户的交互体验。
StoryGen模型的创新之处在哪里?
StoryGen模型通过学习的自回归图像生成,能够根据给定的故事情节生成连贯的图像序列,推动开放式视觉叙事的发展。
InstaGen如何增强目标检测器的性能?
InstaGen通过合成数据训练目标检测器,利用生成的样本提高了目标检测器在开放词汇和数据稀缺情况下的性能。
➡️