B站多媒体实验室在ICCV MIPI Workshop的细粒度图像质量定位国际挑战赛中,提出多模态训练策略,提升综合指标13.5%,获得第二名。实验室专注于视频质量评价与图像处理的协同,应用GRPO算法优化模型,验证了SFT+GRPO的有效性,推动智能视频处理系统的发展。
本研究提出了Mol-LLM,通过多模态训练和分子结构优化,克服了大型语言模型在分子任务中的局限性,表现优于大多数现有模型。
本研究探讨了多语言模型(LLMs)和自动化机器学习(AutoML)的进展,提出了新方法如Auto-Instruct和MAV,显著提升了模型性能和指令质量,推动了LLMs的透明训练和应用。
研究提出了一种课程学习方法,优化视觉-语言任务,提高小规模多模态训练效果。结合文本预训练,课程学习在文本任务中表现出显著优势,特别是对小参数模型有明显帮助。这为在数据有限的环境中有效利用机器学习提供了新见解。
本文研究了图像生成模型的现状与进展,提出了一种统一语言界面,将计算机视觉任务转化为文本到图像生成问题。通过使用大规模语言模型和InstructPix2Pix架构,创建了多模态训练数据集,提升了模型在视觉任务中的表现和泛化能力。同时,探讨了基于Transformer的扩散模型在图像和视频生成中的应用,推动了计算机视觉领域的创新。
本研究探讨了深度学习模型在老年痴呆症MRI数据集中的泛化能力,发现更广泛的训练图像能提升模型性能。提出了BraVL和FINE等新方法,以改善神经网络的泛化能力和自我监督表示。研究表明,模态不可知解码器在解码脑信号方面优于传统方法,强调了多模态训练的重要性。
本文探讨了利用音频数据进行意图分类的多模态训练方法,通过生成音频嵌入和余弦相似度实现零样本分类。实验结果表明,该方法在SLURP和目标导向对话数据集上显著提高了分类准确率,并研究了无监督方法、聚类技术和元学习在意图识别中的应用,以解决低资源环境下的分类性能问题。
本文研究了文本预训练的局限性,重点讨论了报告偏差对单一模态训练的负面影响,并通过比较颜色分布的实验结果发现,多模态模型可以减轻此影响。
完成下面两步后,将自动完成登录并继续当前操作。