最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

机器之心 ·

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

Ola模型是一种全模态语言模型，具备图像、视频和音频理解的强大能力。其采用渐进式模态对齐策略，逐步提升模型性能。在多个基准测试中，Ola超越了现有的专用模型，推动了全模态理解的研究进展。

🎯

关键要点

Ola模型是一种全模态语言模型，具备图像、视频和音频理解能力。
Ola采用渐进式模态对齐策略，逐步提升模型性能。
Ola在多个基准测试中超越了现有的专用模型，推动全模态理解研究进展。
Ola模型由腾讯混元Research、清华大学和南洋理工大学合作开发。
Ola在图像基准测试中表现优异，排名第一，准确率达到72.6%。
在视频理解测试中，Ola的准确率为68.4%，超越了多种知名模型。
Ola在音频理解任务中表现卓越，接近最佳音频理解模型水平。
Ola模型的训练流程从图像和文本开始，逐步扩展到视频和音频。
Ola的架构设计支持全模态输入和流式文本、语音生成。
Ola通过渐进式模态对齐策略有效解决了模态平衡和音频与视觉之间的联系问题。
Ola的训练数据涵盖了大量的图像、视频和音频样本，确保了模型的全面性。
Ola在全模态理解任务中展现出强大的竞争力，推动了全模态模型的研究与应用。

❓

延伸问答

Ola模型的主要功能是什么？

Ola模型是一种全模态语言模型，具备图像、视频和音频理解能力。

Ola模型是如何提升性能的？

Ola采用渐进式模态对齐策略，逐步扩展模型的能力，从图像和文本开始，逐步加入视频和音频。

Ola模型在图像理解测试中的表现如何？

Ola在图像基准测试中表现优异，准确率达到72.6%，排名第一。

Ola模型的开发团队有哪些？

Ola模型由腾讯混元Research、清华大学和南洋理工大学合作开发。

Ola模型在视频理解测试中的准确率是多少？

Ola在视频理解测试中取得了68.4%的准确率，超越了多种知名模型。

Ola模型的训练数据来源是什么？

Ola的训练数据涵盖了大量的图像、视频和音频样本，确保了模型的全面性。

🏷️

继续阅读

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...