小红花·文摘 - 小红花技术领袖俱乐部

闭源商业模型Meta Muse Spark 1.1发布编码能力不算突出但价格比较便宜

闭源商业模型Meta Muse Spark 1.1发布编码能力不算突出但价格比较便宜

蓝点网 ·

本报告评估了通用AI的能力与风险，指出AI能力迅速提升但不稳定，存在恶意使用、功能异常和系统性风险。技术和制度挑战使风险管理复杂，需多层防护。AI在多模态任务中表现出色，但在长期任务和现实世界交互中仍面临挑战。未来发展依赖算力、算法和数据的提升，专家对2030年前AI能力的预测存在分歧。

【公益译文】2026年国际AI安全报告（一）

绿盟科技技术博客 ·

开卷视觉编程！GLM-5V-Turbo上线，一张草图搞定前端

量子位 ·

LongCat-Flash-Omni正式发布并开源：开启全模态实时交互时代

美团技术团队 ·

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能

我爱自然语言处理 ·

OpenAI GPT-4.1 API 发布及简介

OpenAI GPT-4.1 API 发布及简介

我爱自然语言处理 ·

本研究提出PAVE框架，旨在提升视频大语言模型在新任务适应中的表现。通过轻量级适配器“补丁”，PAVE有效调整预训练模型以应对多模态任务，实验结果显示其在音视频问答和3D推理等任务上显著提升性能，且计算成本极低。

PAVE: Patching and Adapting Video Large Language Models

BriefGPT - AI 论文速递 ·

Qwen2.5-VL-32B: 更聪明、更轻量!

Qwen2.5-VL-32B: 更聪明、更轻量!

Blog on Qwen ·

本研究提出了一种新方法——携带视觉条件（TVC），旨在解决多模态任务中视觉信息关注度下降的问题。TVC策略优化了推理过程中的视觉输入使用，提升了多模态推理系统的表现，平均性能提高了3.4%。

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long Chain Reasoning

BriefGPT - AI 论文速递 ·

2nd CEFSW Workshop 2025征稿

2nd CEFSW Workshop 2025征稿

机器之心 ·

本研究提出了一种模块化视觉对比解码（MVCD）框架，旨在提升大型语言模型（LLMs）在多模态任务中的表现。MVCD通过利用LLMs的上下文学习能力，有效提高了视觉感知能力和模型准确性，展现出重要的应用潜力。

Enhancing Visual Capabilities of Language Models: Visual Contrastive Decoding for Multimodal Reasoning in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，缩小了无编码视觉语言模型与编码模型之间的性能差距。通过分解和分层关联视觉与语言，EVEv2.0在数据效率和视觉推理能力上表现优越，展现了无编码架构在多模态任务中的潜力。

EVEv2：改进的无编码视觉语言模型基线

BriefGPT - AI 论文速递 ·

谷歌发布实验性AI推理模型

谷歌发布实验性AI推理模型

InfoQ ·

MiniMax推出了新模型MiniMax-01，支持400万token的超长上下文，性能接近DeepSeek-v3和GPT-4o。该模型采用Lightning Attention架构，显著提升处理效率。在多个基准测试中，MiniMax-Text-01在长上下文理解方面表现突出，而MiniMax-VL-01则专注于多模态任务，展现强大处理能力。该模型已在Hailuo AI上免费试用。

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

量子位 ·

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

机器之心 ·

LlamaFusion：语言模型如何仅通过0.1%的参数变化生成图像

LlamaFusion：语言模型如何仅通过0.1%的参数变化生成图像

DEV Community ·

本研究提出FedPIA框架，旨在医疗等隐私环境中有效微调大型视觉-语言模型。通过适配器的置换和整合，优化联邦学习与参数高效微调的结合，显著提升模型在多模态任务中的表现，超越现有基准方法。

FedPIA: Permuting and Integrating Adapters Using Wasserstein Barycenters for Finetuning Foundation Models in Multi-Modal Federated Learning

BriefGPT - AI 论文速递 ·

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

机器之心 ·

谷歌DeepMind发布Gemini 2.0：人工智能性能与多模态集成的飞跃

谷歌DeepMind发布Gemini 2.0：人工智能性能与多模态集成的飞跃

InfoQ ·

本研究提出了一种可变视觉位置编码(V2PE)方法，旨在提升视觉-语言模型处理长上下文的能力，特别适用于视频和高分辨率图像等任务。实验结果表明，该方法在多模态任务中表现优异，具有广泛的应用潜力。

V2PE: Improving the Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

BriefGPT - AI 论文速递 ·