B站多媒体实验室在ICCV MIPI Workshop的细粒度图像质量定位国际挑战赛中,提出多模态训练策略,提升综合指标13.5%,获得第二名。实验室专注于视频质量评价与图像处理的协同,应用GRPO算法优化模型,验证了SFT+GRPO的有效性,推动智能视频处理系统的发展。
本研究提出了Prompt-CAM方法,解决了预训练视觉变压器在细粒度分析中无法准确定位相似类别特征的问题。该方法通过学习特定类别的提示,显著提升了特征及其位置的可解释性,展现出优越的解释能力。
本研究通过将大型语言模型的情感理解提炼至小型模型,解决了细粒度情感分析的高成本问题,实验结果显示提炼后的模型F1得分提升了6.00%。
完成下面两步后,将自动完成登录并继续当前操作。