小红花·文摘 - 小红花技术领袖俱乐部

Nano Banana 2 Lite（Gemini 3.1 Flash Lite图像）现已在AI Gateway上线

Nano Banana 2 Lite（Gemini 3.1 Flash Lite图像）现已在AI Gateway上线

Vercel News ·

Seed 2.1、Seedance 2.5发布，图像、语音模型同步上新

Seed 2.1、Seedance 2.5发布，图像、语音模型同步上新

实时互动网 ·

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌、英伟达

量子位 ·

飞桨星河社区月度报告（2026年2月）

飞桨星河社区月度报告（2026年2月）

百度大脑 ·

世界模型统一框架：突破任务特定知识注入的局限性

世界模型统一框架：突破任务特定知识注入的局限性

Micropaper ·

面向 Claude Code 的智能自动化与多代理编排系统，85 位 AI 专家协同开发 | 开源日报 No.880

面向 Claude Code 的智能自动化与多代理编排系统，85 位 AI 专家协同开发 | 开源日报 No.880

开源服务指南 ·

商汤推出的AI视频创作工具Seko已吸引10万创作者使用。该工具集成多模态生成模型，用户通过对话即可生成完整视频，支持复杂剧本拆分和一致性输出，显著降低创作成本，成为“AI短剧大师”。

商汤Seko上线一个月，超10万创作者选择它

量子位 ·

生数科技于9月19日完成数亿元A轮融资，资金将用于模型研发和技术创新。该公司在多模态生成技术领域迅速发展，已覆盖200多个国家，生成视频超过4亿次。其Vidu系列产品在AI视频生成中表现突出，吸引了众多行业合作伙伴。

生数科技再获数亿元大额融资，Vidu领跑多模态大模型赛道

量子位 ·

听见空间：ASAudio 空间音频表示、理解与生成的全景综述

听见空间：ASAudio 空间音频表示、理解与生成的全景综述

实时互动网 ·

CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》

CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》

全球TMT-美通国际 ·

好玩！复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG！挑战3万Token极限

好玩！复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG！挑战3万Token极限

机器之心 ·

利用潜在扩散重新利用蛋白质折叠模型进行生成

利用潜在扩散重新利用蛋白质折叠模型进行生成

The Berkeley Artificial Intelligence Research Blog ·

本研究提出了一种新的统一离散扩散模型UniDisc，旨在解决多模态生成模型在图像与文本理解和生成中的不足，显著提升样本质量、多样性控制和生成效率。

Unified Multimodal Discrete Diffusion Model

BriefGPT - AI 论文速递 ·

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

机器之心 ·

本研究回顾了自2022年以来生成性人工智能在创意产业的进展，重点分析了文本到图像、视频及多模态生成技术的突破及其对内容创作的影响，同时指出传媒行业面临的通信流量挑战。

2025年前创意产业中的人工智能：进展

BriefGPT - AI 论文速递 ·

本研究提出了一种潜在语言建模（LatentLM）方法，旨在解决多模态生成模型中离散与连续数据的整合问题。通过结合因果变换器和变分自编码器，该方法在图像生成和文本到语音合成方面表现出色。

Multimodal Latent Language Modeling with Next Token Diffusion

BriefGPT - AI 论文速递 ·

本研究提出了GATE OpenING基准，解决了开放式交互图文生成评估中数据规模和多样性不足的问题。该基准包含5400个高质量标注实例，涵盖56个真实任务，展示了IntJudge模型在评估多模态生成方法方面的优势，为未来模型发展提供指导。

GATE OpenING: A Comprehensive Benchmark for Evaluating Open-ended Interleaved Image-Text Generation

BriefGPT - AI 论文速递 ·

本研究系统评估了视觉领域自回归模型的应用现状，分析了现有方法的贡献、优势与局限，涵盖图像、视频及多模态生成任务，为未来研究提供指导。

A Review of Visual Autoregressive Models

BriefGPT - AI 论文速递 ·

本研究提出Diff-2-in-1框架，解决了扩散模型在密集视觉感知任务中的应用不足，优化了多模态生成与视觉感知的结合，显著提升了生成数据的有效性和多样性。

Diff-2-in-1: Bridging Generation and Dense Perception through Diffusion Models

BriefGPT - AI 论文速递 ·

本文介绍了去噪扩散隐式模型（DDIMs），通过非马尔科夫扩散过程显著加速采样速度，提升了10至50倍。研究探讨了基于扩散模型的图像生成方法及其生成质量的改进，并提出了新的框架以解决效率问题，展示了在多模态生成中的应用潜力。

DART：用于可扩展文本到图像生成的去噪自回归变压器

BriefGPT - AI 论文速递 ·