小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新颖的机器人视觉指令（RoVI）范式，通过手绘符号指导机器人执行任务。结果表明，视觉指令具身工作流（VIEW）在复杂任务中的成功率达到87.5%。

Robot Visual Instructions

BriefGPT - AI 论文速递 ·

本研究解决了大型多模态模型在视觉指令调优阶段的写作风格差异问题，通过对齐基础大型语言模型的写作风格，提升了模型的抗幻觉能力和整体性能。

Bridging the Writing Style Gap in Visual Instruction Tuning by Creating Instructions Aligned with Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新的视觉指令重写方法，旨在解决多模态交互中的隐私数据传输问题。该方法将多模态指令转化为纯文本命令，从而增强视觉数据的隐私性，推动隐私保护的多模态人工智能应用发展。

ReVision: A Dataset and Baseline Visual Language Model for Privacy-Preserving Task-Oriented Visual Instruction Rewriting

BriefGPT - AI 论文速递 ·

本研究提出了协作框架DataTailor，旨在解决视觉指令数据集扩展中的数据冗余和高计算成本问题。该框架通过信息量、独特性和代表性进行数据选择，实验表明仅使用15%的数据即可实现全数据微调性能的100.8%，有效降低计算成本。

Mastering Collaborative Multi-modal Data Selection: Focusing on Informativeness, Uniqueness, and Representativeness

BriefGPT - AI 论文速递 ·

本研究解决了视觉指令调优中的双重遗忘问题，提出了可分离低秩适应混合模型，提升了模型性能并防止遗忘。同时推出了新的CVIT基准，以评估模型的泛化能力和指令处理能力。

可分离低秩适应混合模型用于持续视觉指令调优

BriefGPT - AI 论文速递 ·