本研究探讨了掩盖生成模型与非自回归模型的关系,提出了“离散插值”框架,展示了其在视觉领域的可扩展性,并在多个基准测试中表现出竞争力。
AIxiv专栏发布了自回归模型在视觉领域的综述,涵盖图像、视频和3D生成等应用,分析了模型分类、性能比较及面临的挑战,为研究人员提供参考。
本研究系统评估了视觉领域自回归模型的应用现状,分析了现有方法的贡献、优势与局限,涵盖图像、视频及多模态生成任务,为未来研究提供指导。
最近的研究关注从提高深度神经网络性能转向更具人可解释性的DNNs。本文回顾和分类了DNNs中的概念表示及其发现算法,特别是在视觉领域。同时提供了关于基于概念的模型改进文献的详细信息。
本文介绍了视觉领域中使用transformer的方法,包括Vision Transformer、SASA-Layer和Rethinking and Improving Relative Position Encoding for Vision Transformer等模型。这些方法在图像分类和其他视觉任务中表现出色。
该论文比较了人类和ChatGPT(GPT-3.5和GPT-4)在词汇概念表示上的差异。结果显示,LLM在某些抽象维度上与人类相似,但在感官和运动领域表现较弱。GPT-4在视觉领域有显著进展,但仍有不足。研究还发现,某些概念表示与感官能力相互独立,但其他方面需要它们。
Emo-Avatar是一种高效的视频风格化头像生成方法,利用延迟神经渲染技术增强了生成动态肖像视频的能力。该方法通过两阶段的延迟神经渲染流程,结合其他技术,实现了对风格化肖像视频的快速生成和编辑,具有高训练效率、渲染质量和可编辑性。
研究比较了人类和ChatGPT(GPT-3.5和GPT-4)在不同词汇概念特征或维度上的表现,结果显示LLM在某些抽象维度上表现类似于人类,但在感官和运动领域,GPT-3.5表现较弱,而GPT-4在这方面有了显著进展。GPT-4的进步主要源于其在视觉领域的训练。某些概念表示的方面似乎与感官能力相互独立,但其他方面似乎需要它们。
本文介绍了多视角架构在视觉领域的应用,并提出了一种解释这些模型的方法。实验结果表明,准确的架构选择可以改善泡沫样本质量分类,并在性能和可解释性之间取得平衡。该方法能够解释单个单视角模型,增强整体多视图模型的可解释性。
完成下面两步后,将自动完成登录并继续当前操作。