本研究提出了一种名为UniCoRN的统一图像恢复方法,能够同时处理多种图像退化类型。通过利用低级视觉线索,设计了可调控的多头扩散模型,显著提升了多个数据集上的恢复性能,有效应对现实中的图像退化问题。
本研究探讨视觉语言模型(VLMs)在处理视觉和语言线索下的无知推断能力,发现模型对语言线索敏感,但在视觉线索的推断能力上表现较弱且不一致,指出VLM在语用推理方面存在困难,需进一步改进。
本文探讨了集体照片中个体的重要性,提出了一种基于视觉线索的自动预测方法,显著改善了人群图像描述效果。研究涉及神经网络检测社交行为、多人语义分割和重要人物检测,展示了在多个数据集上的优异性能,并提出了新的预训练框架和注意力估计方法,推动了人类行为分析和自动驾驶等领域的发展。
本研究介绍了一种用于无监督异常检测的3D数据集,涵盖多种物品类别及瑕疵。提出的新方法和模型(如DBRN和IMRNet)显著提升了检测性能和效率。此外,研究还探讨了基于视觉线索的自动异常检测,并创建了包含180K图像的大型数据集,推动了该领域的发展。
本文介绍了一种新型动作定位方法,利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合,该方法在THUMOS14和ActivityNet v1.3数据集上表现优异,展示了其有效性和优势。
本文介绍了一种基于Transformer的深度学习模型,用于音频视觉语音修复。该模型通过视觉线索修复受损音频,实验结果表明其性能优于传统模型,能够有效实现音视频同步。
本研究提出了一种多模式方法来同时机器翻译,使用自适应策略平衡翻译质量和延迟,并通过集成视觉和文本信息来支持该过程。研究发现,视觉线索可以在保持延迟低的同时提高翻译质量。
完成下面两步后,将自动完成登录并继续当前操作。