这篇论文综述了深度学习和计算机视觉在生成逼真说话头部中的应用,涵盖图像、音频、视频驱动及其他方法。分析了每种方法的贡献、优缺点,并比较了公开模型的推理时间和生成质量。目标是提供领域概览,明确方法关系,确定未来研究方向,为研究人员和从业者提供参考。
美团技术团队在CVPR 2024上发表了7篇论文,涵盖了OCR预训练、长尾半监督学习、图像驱动、数字人生成、视听分割和视觉叙事等领域。这些论文的研究成果有助于提高场景文本检测、图像生成和目标检测等任务的性能。
GeoSynth是一个用于合成全球风格和图像驱动的卫星图像布局控制的模型。它可以通过文本提示或地理位置进行全球风格控制,并生成多样化、高质量的图像。
完成下面两步后,将自动完成登录并继续当前操作。