本研究提出了一种新颖的机器人视觉指令(RoVI)范式,通过手绘符号指导机器人执行任务。结果表明,视觉指令具身工作流(VIEW)在复杂任务中的成功率达到87.5%。
本研究解决了大型多模态模型在视觉指令调优阶段的写作风格差异问题,通过对齐基础大型语言模型的写作风格,提升了模型的抗幻觉能力和整体性能。
本研究提出了一种新的视觉指令重写方法,旨在解决多模态交互中的隐私数据传输问题。该方法将多模态指令转化为纯文本命令,从而增强视觉数据的隐私性,推动隐私保护的多模态人工智能应用发展。
本研究提出了协作框架DataTailor,旨在解决视觉指令数据集扩展中的数据冗余和高计算成本问题。该框架通过信息量、独特性和代表性进行数据选择,实验表明仅使用15%的数据即可实现全数据微调性能的100.8%,有效降低计算成本。
本研究解决了视觉指令调优中的双重遗忘问题,提出了可分离低秩适应混合模型,提升了模型性能并防止遗忘。同时推出了新的CVIT基准,以评估模型的泛化能力和指令处理能力。
完成下面两步后,将自动完成登录并继续当前操作。