本研究提出了一种零样本方法,结合大型语言模型与域外强化学习,提升智能体在复杂Atari游戏《青蛙跳跃》中的适应性和样本效率。
本文综述了过去五年的人体姿势估计方法,重点分析了其准确性、速度和鲁棒性。研究比较了多种方法,提出了基于深度学习的创新架构,并强调了零样本方法在下肢假肢步态分析中的潜力,探讨了未来研究方向。
本文提出了一种零样本方法,通过视觉语言模型改善视频片段与文本的对齐,显著提升视频片段检索性能。引入大规模视频时刻检索任务,开发了互补匹配网络(RMMN)和背景感知时刻检测变压器模型(BM-DETR),在多个基准测试中表现优异。
本文介绍了AnimateZero,一种基于预训练文本到视频扩散模型的零样本方法,能够高效生成图像动画。该方法无需额外训练,支持交互式视频生成,且在视频生成中表现出更好的像素一致性和用户偏好,推动了视频生成技术的发展。
本综述论文概述了图像超分辨率中的扩散模型(DMs),分析了特征和方法论。研究了替代输入域、条件策略、指导、失真空间和零样本方法。讨论了DMs在图像超分辨率中的演变、趋势、挑战和未来方向。
本研究比较了调整模型和极大语言模型在可检测可信度主张任务中的性能。实验结果表明,调整模型在跨域设置中优于零样本方法。
本文介绍了一种名为MultiCapCLIP的零样本方法,可在多场景和多语言中生成视觉描述。该方法在四个基准测试和四种语言上相对于最先进的零样本和弱监督方法分别有4.8%和21.5%的绝对改进。
本综述论文概述了图像超分辨率中的扩散模型(DMs),强调了该领域的特征和方法论。探索了替代输入域、条件策略、指导、失真空间和零样本方法等研究方向。讨论了DMs在图像超分辨率中的演变、趋势、挑战和未来方向。
该研究介绍了一种创新的零样本方法,利用图像生成扩散模型实现无标记姿态估计,为下肢假肢的步态分析提供了有希望的解决方案。研究结果证实了这种方法的可行性,并强调其在推进下肢截肢者步态分析方面的潜力。
GenZI是第一个零样本方法,用于生成3D人与场景的交互。通过从大型视觉-语言模型中提取交互先验知识,利用自然语言描述和场景中的粗略点位置,合成场景中的3D人模型的姿态和形状。与传统方法相比,GenZI不需要捕获3D交互数据,使用简单易用的文字提示进行灵活控制。实验证明该方法适用于各种场景类型。
研究发现Vision Transformers(ViTs)中存在量化伪像,提出了一种零样本方法SRT来改善预训练ViTs处理空间量化的方式。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构。在不同任务中,SRT都能提高模型性能。此外,SRT还适用于非密集预测任务,产生了一致的改进效果。
本文提出了音频字幕的三个愿景:生成流畅的文本、生成忠实于输入音频的文本和提高听觉可感知性。通过零样本方法,使用推理过程进行字幕生成,涉及三个网络:GPT-2语言模型、ImageBind多模态匹配网络和文本分类器。在AudioCap数据集上展示了结果,证明了听觉指导明显提高了性能。
提出了一种零样本方法MultiCapCLIP,用于多场景和多语言的视觉描述生成。该方法无需标注视觉-描述对,可以为不同场景和语言生成视觉描述。在四个基准测试和四种语言上,相对于最先进的零样本和弱监督方法,取得了4.8%和21.5%的绝对改进。
完成下面两步后,将自动完成登录并继续当前操作。