Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。它通过直接输入视觉和音频数据,简化了处理流程,提升了整体质量和指令遵循性。
本文介绍了Contrast and Mix(CoMix)的新对比学习框架,用于无监督视频领域适应学习。通过时间对比学习和背景混合,弥合领域差距,增加视频领域适应的语义分享。实验证明该方法的优越性。
完成下面两步后,将自动完成登录并继续当前操作。