小红花·文摘

本论文提出了一种新的框架和优化策略，通过混合适配器从全局视图中提取上下文信息，并引入可学习的查询嵌入来减少图像标记，同时通过相似性选择器选择用户问题的关键标记，实现更好的性能表现。此外，通过交替训练的方式平衡学习全局和局部方面，并引入高要求图像细节的数据集来增强局部压缩层的训练，提出的方法在各项基准测试中表现出优异性能。

INF-LLaVA：高分辨率多模态大语言模型的双视角感知

BriefGPT - AI 论文速递 ·

本文介绍了一种轻量级的零样本文本转语音（TTS）方法，使用混合适配器（MoA）整合到非自回归TTS模型中，以增强适应不同说话者的能力。经过客观和主观评估，证实该方法在比基准少40%参数的情况下，以1.9倍的推理速度实现了更好的性能。

轻量级零样本文本转语音与适配器混合模型

BriefGPT - AI 论文速递 ·