机器之心 ·

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

清华大学、腾讯和南洋理工大学的研究者推出了多模态模型Oryx，能够处理图像、视频和3D场景。Oryx的创新包括预训练的视觉编码器和动态压缩模块，支持不同分辨率和长度的输入。它在多模态融合上表现优异，尤其在视频、图像和3D理解任务中表现突出。通过优化分辨率和压缩策略，Oryx提高了效率和精度。

🎯

关键要点

清华大学、腾讯和南洋理工大学的研究者推出了多模态模型Oryx，能够处理图像、视频和3D场景。
Oryx的核心创新包括预训练的视觉编码器OryxViT和动态压缩模块，支持不同分辨率和长度的输入。
Oryx在多模态融合上表现优异，尤其在视频、图像和3D理解任务中表现突出。
Oryx通过优化分辨率和压缩策略，提高了效率和精度。
现有的多模态大语言模型在处理不同长度的视觉输入时效率较低，Oryx提供了更灵活的解决方案。
Oryx的主要贡献包括预训练视觉编码器OryxViT和动态压缩模块，能够按需处理视觉输入。
Oryx在视频、图像和3D理解任务上表现出色，成为开源模型的新标杆。
Oryx的训练策略轻量且直接，确保了模型的可复现性。
Oryx在通用视频理解、长视频理解和图像理解等多个评测基准中均取得了优异的成绩。
Oryx的动态压缩模块在视频测试中表现出更优越的性能，能够更好地保留视觉特征分布。

❓

延伸问答

Oryx模型的主要创新点是什么？

Oryx模型的主要创新点包括预训练的视觉编码器OryxViT和动态压缩模块，支持不同分辨率和长度的输入。

Oryx在视频理解任务中的表现如何？

Oryx在视频理解任务中表现优异，尤其在长视频理解上超越了现有的7B模型系列。

Oryx如何处理不同长度的视觉输入？

Oryx通过动态压缩模块实现按需控制视觉序列的长度，支持1倍到16倍的压缩。

Oryx的训练策略有什么特点？

Oryx的训练策略轻量且直接，确保了模型的可复现性，并使用开源数据集进行训练。

Oryx在3D理解任务中的表现如何？

Oryx在3D理解任务中超越了之前为此设计的专有模型，表现出色。

Oryx的动态压缩模块有什么优势？

动态压缩模块能够更高效地处理不同长度的视觉输入，保持精度和长度上的取舍。

🏷️

标签

3D理解 Oryx 动态压缩多模态开源视觉编码器

➡️

继续阅读

远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
Skill、Subagent 与 Agent 究竟是什么？从一个月度总结实战谈 AI 原生架构
本文通过一个真实的“仓库月度自动统计与总结报告”落地需求，深入剖析 Skill、Subagent 和 Agent 三者的本质区别、协作模式与持久化原理，帮...
开源媒体服务器Jellyfin创始领导层集体辞职项目后续治理和开发路线变得灰暗
#软件资讯开源媒体服务器项目 Jellyfin 创始团队接连离开，项目后续治理和路线变得灰暗，暂时也没有继任安排。近期 Jellyfin 两名联合创始人...
Twitter之父再出手：Block开源Buzz，要让人类和AI Agent「同工同权」
Block（原Square）7月22日开源发布协作平台Buzz——一个基于Nostr协议、让人类员工与AI Agent在同一工作区内以「同等身份」协同工作...
Getty Images扩大与Goalhanger的合作关系，加大对视频优先叙事方式的投资
视觉内容创作和市场 Getty Images 和独立播客制作商 Goalhanger 宣布扩大内容合作关系，以支持 Goalhanger 在其节目组合中不...
视频问诊延迟来自哪里：采集、编码、传输、渲染逐段拆解
视频问诊时画面卡住、声音和口型对不上，这些场景线上问诊的用户多少都遇到过。很多人第一反应是”网太差了”，实际上网络只是延迟链条上的一环。这篇把延迟从采集到渲...