小红花·文摘 - 小红花技术领袖俱乐部

连夜实测 Kimi K3，建议改名 Kable

连夜实测 Kimi K3，建议改名 Kable

爱范儿 ·

Kimi K3现已在AI Gateway上可用

Kimi K3现已在AI Gateway上可用

Vercel News ·

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

结构之法算法之道 ·

基于文本条件的JEPA用于学习语义丰富的视觉表示

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research ·

一分钟读论文：《用扩散语言模型统一多模态理解与生成》

一分钟读论文：《用扩散语言模型统一多模态理解与生成》

Micropaper ·

在线教程丨小身材大「码」力，Qwen3.6-27B编程能力达旗舰级

在线教程丨小身材大「码」力，Qwen3.6-27B编程能力达旗舰级

HyperAI超神经 ·

谷歌推出了Gemini Robotics-ER 1.6，这是一个升级的机器人模型，具备更精准的物理环境理解能力，增强了空间逻辑和多视角理解，提升了自主性，尤其在视觉理解、任务规划和成功检测方面表现优异。此外，该模型能够读取复杂仪表，并且是迄今为止最安全的机器人模型，符合安全政策。开发者可通过Gemini API和Google AI Studio访问该模型。

Gemini Robotics ER-1.6增强推理能力，助力机器人应对现实世界任务

The Keyword ·

太能打了：小卡也能跑的视觉模型！Gemma 4 本地视觉实测，截图转HTML

太能打了：小卡也能跑的视觉模型！Gemma 4 本地视觉实测，截图转HTML

dotNET跨平台 ·

微软与清华提出BiPS模型，通过训练阶段教会模型关注关键视觉细节，解决视觉-语言模型在推理中的错误。BiPS利用“拉”和“推”机制，提升视觉理解能力，使模型在复杂任务中更准确地识别信息，推动通用智能的发展。

AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

量子位 ·

Kimi K2.5已在AI Gateway上线

Kimi K2.5已在AI Gateway上线

Vercel News ·

GLM-Image 上线模力方舟：首个国产芯片训练的多模态图像生成模型

GLM-Image 上线模力方舟：首个国产芯片训练的多模态图像生成模型

Gitee 官方博客 ·

文心5.0正式发布，参数达到2.4万亿，具备全模态能力，表现优异。其在文本和视觉理解方面多次夺冠，展现出强大的知识整合与创造力。通过原生全模态建模，提升了理解与生成的协同能力，已广泛应用于多个行业，未来发展值得关注。

2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？

量子位 ·

刚刚，GPT-5.2 正式发布！让打工人每周少干 10 小时，成人模式明年见

刚刚，GPT-5.2 正式发布！让打工人每周少干 10 小时，成人模式明年见

爱范儿 ·

GLM-4.6V开源：从看懂图片到自动完成任务

GLM-4.6V开源：从看懂图片到自动完成任务

实时互动网 ·

快手推出了Keye-VL-671B-A37B多模态大语言模型，具备强大的视觉理解和视频感知能力，能够准确识别图像和视频细节并进行复杂推理，表现优于同类产品。未来将增强多轮工具调用能力，推动更深层次的视觉思考与推理。

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

量子位 ·

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异，超越Gemini 3和GPT-5.1等国际顶尖模型，但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破，已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

量子位 ·

字节AI推出的新模型Doubao-Seed-Code在Agentic编程任务中表现卓越，支持视觉理解，能够根据UI设计生成代码，并快速解决各种问题。火山引擎还提供低成本套餐，推动AI编程进入“咖啡时代”。

看图写代码，3毛钱开发一个网页！字节AI Coding新模型真卷麻了

量子位 ·

AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

HyperAI超神经 ·

本文介绍了一种新的向量量化训练方案DiVeQ，采用STE技巧，无需额外的Aux Loss，使训练过程更加简洁。DiVeQ在视觉理解和生成中表现出色，解决了传统方法的超参数调节问题。

DiVeQ：一种非常简洁的VQ训练方案

科学空间|Scientific Spaces ·

谷歌最新的AI模型像你一样使用网页浏览器

谷歌最新的AI模型像你一样使用网页浏览器

The Verge ·