小红花·文摘 - 小红花技术领袖俱乐部

Muse Spark 1.1现已在AI Gateway上可用

Muse Spark 1.1现已在AI Gateway上可用

Vercel News ·

2026年5月17日Python周刊摘要

2026年5月17日Python周刊摘要

Python Hub Weekly ·

Modular：前沿编码代理如何在MAX上构建视频扩散管道

Modular：前沿编码代理如何在MAX上构建视频扩散管道

Modular Blog ·

飞桨星河社区月度报告（2026年1月）

飞桨星河社区月度报告（2026年1月）

百度大脑 ·

谷歌新推出的Gemini 3 Flash以较低成本与前沿模型竞争

谷歌新推出的Gemini 3 Flash以较低成本与前沿模型竞争

The New Stack ·

谷歌推出Nano Banana Pro，具备基于推理的多模态图像合成

谷歌推出Nano Banana Pro，具备基于推理的多模态图像合成

InfoQ ·

OpenAI研究科学家Łukasz Kaiser指出，AI并未减缓，而是从预训练转向推理模型。GPT-5.1是稳定性迭代，未来将重点发展多模态推理和家用机器人，AI将改变工作方式但不会消失。

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

量子位 ·

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异，超越Gemini 3和GPT-5.1等国际顶尖模型，但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破，已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

量子位 ·

罗福莉在小米入职不到10天便发布了首篇论文，介绍了全球首个跨具身智能与自动驾驶的开源模型MiMo-Embodied。该模型在29个基准测试中表现优异，成功融合了这两个领域，解决了知识迁移难题，提升了多模态推理能力。

罗福莉首个小米成果！开源具身大模型

量子位 ·

谷歌于11月18日发布了Gemini 3，具备卓越的推理能力和用户需求理解能力。Gemini 3 Pro模型在AI基准测试中表现优异，特别是在数学和多模态推理方面。同时，新推出的Google Antigravity平台支持复杂软件开发任务，Gemini 3已在多个平台上线，Gemini 3 Deep Think模式也已开放给测试人员。

派早报：Google 发布 Gemini 3、Cloudflare 引发网络故障等

少数派 ·

谷歌推出Gemini 3 Pro

The New Stack ·

Vercel与谷歌合作推出Gemini 3 Pro预览版

Vercel与谷歌合作推出Gemini 3 Pro预览版

Vercel News ·

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

美团技术团队 ·

AI 在 ICPC world final 战胜人类的一天

AI 在 ICPC world final 战胜人类的一天

INTJer ·

本文探讨了EmbodiedOneVision模型，该模型通过交错的视觉-文本-动作预训练，实现灵活的多模态推理与动作生成。EO-1采用统一架构，结合离散自回归解码与连续流匹配，提升机器人控制的泛化能力，并强调多模态数据的重要性，提出新的训练方法以优化推理与执行的整合。

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪：Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

结构之法算法之道 ·

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景，在多个基准测试中取得领先成绩。

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

量子位 ·

2025年上半年AI领域的核心趋势包括智能代理产品的兴起，AI编程的重要性提升，模型能力特别是在多模态推理方面的增强，以及行业竞争加剧，算力成为关键因素。

一份报告看尽2025上半年AI核心趋势，应用、模型、技术、行业全覆盖｜量子位智库

量子位 ·

SeePhys新基准显示，当前顶尖AI模型在物理图像理解方面的准确率仅为55%。该基准涵盖从初中到博士的多模态物理问题，强调视觉信息对模型推理的重要性，揭示了多模态推理的巨大挑战。

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

量子位 ·

剑桥、伦敦大学学院与谷歌的研究团队提出了一种新方法VPRL，通过图像进行推理，准确率高达80%。该方法利用强化学习优化视觉规划，显著优于传统文本推理，推动多模态推理向更直观的方向发展。

纯靠“脑补”图像，大模型推理准确率狂飙80%丨剑桥谷歌新研究

量子位 ·

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一，表现优异。该模型结合532M视觉编码器和200亿参数，擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计，模型在多模态数据处理上表现突出，但仍存在局限性。

拿下38项第一！字节发布Seed1.5-VL多模态推理模型

量子位 ·