互动学习能提高学生专注力,教育应用常包含测验、视频和游戏等元素。清晰的视觉和声音提示有助于理解,设计需适应多种设备。互动课程增强学生参与感,尤其吸引年轻用户。
本研究结合视觉提示与差分隐私神经切线核,提升了高分辨率图像合成数据的有效性,准确率从0.644提升至0.769,为差分隐私合成数据的应用开辟新路径。
本研究提出KUDA系统,结合关键点动态学习与视觉提示,解决开放词汇机器人操控在动态任务中的局限性。KUDA有效将目标规范转化为模型规划成本函数,展示了在多种操控任务中的优异表现及广泛应用潜力。
本研究提出了一种新颖的PDZSeg模型,旨在解决内镜手术中因组织类型边界模糊导致的分解区分割问题。该模型通过多种视觉提示优化分割性能,研究结果表明其优于现有方法,为未来研究奠定了基础。
本文探讨了多模态大型语言模型(MLLMs)在视觉提示方面的创新方法,包括对话反馈优化文本提示、内存空间视觉提示(MemVP)和prompt-aware适配器等技术。这些方法显著提升了模型在视觉理解和推理任务中的性能,并降低了资源消耗,推动了视觉语言模型的研究进展。
本文介绍了DetCLIPv2和T-Rex2等多种改进的物体检测模型,利用大规模图像-文本对进行开放词汇目标检测,显著提升检测性能。研究探索了多模态分类器和动态词汇生成,提出新的视觉提示方法和OSR-ViT框架,展示了在低数据场景中的优越表现,推动开放世界目标检测的发展。
本研究探讨了深度学习后门攻击的防御策略,揭示了其薄弱环节和局限性,提出了新型隐形后门攻击方法及黑盒攻击的有效性,强调了视觉提示学习的漏洞,并评估了视觉状态空间模型的鲁棒性,指出指令调优对大规模视觉语言模型的安全风险,呼吁对后门攻击进行深入研究。
浙江大学、上海人工智能实验室和牛津大学联合提出了DetToolChain,一种释放多模态大语言模型检测能力的新提示范式。DetToolChain通过设计视觉提示和检测推理提示,能够让多模态大模型学会精确检测,无需训练。实验证明,DetToolChain在多个任务上表现出优越性能,包括开放词汇检测、描述目标检测、指称表达理解和定向目标检测。
本文分析了少样本类增量学习(FSCIL)的最新进展,提出了五个子领域的划分方法,并介绍了其在计算机视觉和自然语言处理中的应用。研究提出的新方法PL-FSCIL通过视觉提示提升模型性能,实验结果在多个数据集上表现优异。此外,还提出了减轻灾难性遗忘的算法和基于元学习的方法,展示了在有限数据下的有效性。
T-Rex是一种交互式物体计数模型,能够在零样例情况下进行开放集物体检测。研究提出了新的视觉提示方法和可扩展的对象检测流程,利用预训练模型和自我训练技术显著提高新类别的检测性能。此外,结合视觉和自然语言的神经架构B2T2在推理基准测试中表现优异,减少了错误率。
本文介绍了一种结合监督与零样本学习的多模态提示学习方案,提出了有效的视觉提示方法和检索增强的提示学习方法。研究表明,通过优化模型结构和引入新技术,显著提升了多个视觉数据集上的分类准确率和性能。
研究人员创造了一个用于基础视觉聊天的数据集,并提出了一种模型设计来支持各种类型的视觉提示。实验结果表明,该模型在基准测试中表现优秀。
本文提出了一种名为“视觉提示灵活多模态人脸反欺诈”的方法,通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务,提高了性能并减轻了对重训练的要求。
完成下面两步后,将自动完成登录并继续当前操作。