量子位 ·

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效扩展

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

谷歌与MIT何恺明团队提出Fluid模型，通过连续token和随机生成顺序提升视觉自回归模型的效率。该模型在MS-COCO和GenEval测试中表现优异，展示了良好的可扩展性和视觉大模型的潜力。

🎯

关键要点

谷歌与MIT何恺明团队提出Fluid模型，提升视觉自回归模型效率。
Fluid模型基于连续token和随机生成顺序，表现优异。
Fluid在MS-COCO和GenEval测试中取得领先结果，展示良好的可扩展性。
离散token和光栅顺序限制了自回归图像生成模型的性能。
Fluid模型抛弃离散token，采用连续token，避免量化损失。
生成token顺序采用随机选择，提升生成质量和多样性。
模型参数量扩展至超过100亿，验证损失和FID等指标表现良好。
视觉大模型的潜力尚未被充分挖掘，未来有望进一步扩展。

🏷️

继续阅读

谷歌照片新增人脸细微修饰工具
谷歌推出了新的照片编辑工具，专注于人脸细微修饰，包括去除瑕疵、美白牙齿和平滑肌肤，并可调整效果强度，确保修饰自然。该功能正在全球范围内逐步推出，适用于An...
谷歌照片图像编辑器中的新修饰工具让您快速进行细微调整。
谷歌照片推出新的修饰工具，帮助用户快速改善照片效果，包括细化肤质、去除瑕疵、提亮眼睛和美白牙齿。用户只需选择面部并调整效果强度。这些工具正在全球范围内逐步...
使用您的谷歌AI订阅在AI Studio中开始氛围编码。
谷歌AI Pro和Ultra订阅者在Google AI Studio中获得了更高的使用限制，并可访问Nano Banana Pro和Gemini Pro模...
全球最大规模含触觉数据集，凭什么吸引谷歌和众多高校的加入？
戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity，旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息，预...
Browser Harness是一种浏览器操控工具：让大模型自主完成任务！
Browser Harness是一种自愈式浏览器操控工具，允许大语言模型自主完成任务。它通过CDP协议与Chrome直接连接，去除了传统框架的限制。该工具...
荣耀推出「养虾本」，这才是 2026 年 AIPC 的答案
一只不用学、用得起、不怕用的龙虾#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效扩展

内容提要

关键要点

标签

继续阅读