本研究提出了一种名为UniCoRN的统一图像恢复方法,能够同时处理多种图像退化类型。通过利用低级视觉线索,设计了可调控的多头扩散模型,显著提升了多个数据集上的恢复性能,有效应对现实中的图像退化问题。
本研究探讨视觉语言模型(VLMs)在处理视觉和语言线索下的隐含意义,发现其对语言线索敏感,但在视觉线索推断方面表现不佳,需改进以增强上下文信息处理能力。
AV-CrossNet是一种音视系统,用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明,AV-CrossNet在音视任务上具有最先进的性能。
提出了音频-视觉去混响框架AdVerb,利用视觉线索估计清晰音频,通过跨模态变换器架构生成理想比例掩码,应用于混响音频以预测清晰音频。该方法在语音增强、语音识别和说话人验证三个任务上相对改进范围为18%-82%。在AVSpeech数据集上也取得了满意的RT60误差得分。
本研究介绍了一种基于视觉线索的自动异常检测方法,通过比较查询图像与参考形状来识别图像中的异常。研究创建了一个大型数据集,并提出了一种基于Transformer的方法进行异常检测。该方法在实验中表现良好,可作为未来研究的基准。
该论文提出了一种新颖的方法来执行新闻视频的情感分析,通过融合音频、文字和视觉线索,计算面部表情、声音调制、文本语音和情感得分,达到了84%的准确度。
本文提出了一种新的视频问答框架,通过注意力实现多步推理并关注视觉和文本线索,实现了最先进的性能。
本研究提出了一种多模式方法来同时机器翻译,使用自适应策略平衡翻译质量和延迟,并通过集成视觉和文本信息来支持该过程。研究发现,视觉线索可以在保持延迟低的同时提高翻译质量。
完成下面两步后,将自动完成登录并继续当前操作。