小红花·文摘

多模态大语言模型基础：大语言模型如何处理文本、图像、音频和视频

ByteByteGo Newsletter ·

Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网 ·

仅3B激活参数，更强的多模态理解与推理能力，ERNIE-4.5-VL-28B-A3B-Thinking正式开源！

百度大脑 ·

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景，在多个基准测试中取得领先成绩。

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

量子位 ·

字节Seed推出的M3-Agent多模态智能体具备长期记忆和实时感知能力，通过强化学习提升推理效果，优于现有模型。M3-Bench基准评估其在长视频理解中的表现，展现出卓越的跨模态推理能力。

字节Seed开源长线记忆多模态Agent，像人一样能听会看

量子位 ·

多模态版DeepSeek-R1（Align-DS-V）由北大与港科大联合开发，超越GPT-4o，具备跨模态推理能力。通过Align-Anything框架，模型在视觉理解和文本推理上显著提升，复杂任务成绩从21.4提升至40.5。该框架支持多模态对齐，促进人工智能与人类意图结合，已开源并持续维护。

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力！北大港科大出品，已开源

量子位 ·

研究通过调查118篇论文，分析了158项关于有毒模因的工作，提出了新的分类法，识别模因毒性的三个维度：目标、意图和传达策略。探讨了跨模态推理、专家和文化知识整合的挑战，强调了自动毒性解释和处理资源匮乏语言的需求，并提出未来研究方向。

谷歌的PDF Gemini团队介绍了一种新的多模态模型系列Gemini，能够理解图像、音频、视频和文本。Gemini系列包括Ultra、Pro和Nano三种规模，适用于各种推理任务和内存受限的设备。Gemini Ultra模型在30个基准测试中有30个领先于现有技术水平，特别是在MMLU基准测试中达到了人类专家水平，并在20个多模态基准测试中改进了现有技术水平。Gemini模型在跨模态推理和语言理解方面的新能力将被广泛应用，并讨论了部署这些模型的方法。

Gemini: 一系列高能力的多模态模型

BriefGPT - AI 论文速递 ·

多模态大语言模型基础：大语言模型如何处理文本、图像、音频和视频

Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

仅3B激活参数，更强的多模态理解与推理能力，ERNIE-4.5-VL-28B-A3B-Thinking正式开源！

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

字节Seed开源长线记忆多模态Agent，像人一样能听会看

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力！北大港科大出品，已开源

面向全面检测中文有害 memes

Gemini: 一系列高能力的多模态模型