小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
飞桨星河社区月度报告(2026年2月)

本月动态包括PaddleOCR的异步能力上线,博客新增视频支持,提升用户互动。新增109个数据集,涵盖多模态生成与文档分析。社区活动包括企业级Agentic AI研讨会,探讨智能体在复杂场景中的应用与挑战。

飞桨星河社区月度报告(2026年2月)

百度大脑
百度大脑 · 2026-03-09T13:40:57Z
世界模型统一框架:突破任务特定知识注入的局限性

论文提出了一个统一的世界模型框架,旨在超越任务特定知识注入的局限,强调交互、推理、记忆和多模态生成的重要性,以实现AI对复杂世界的深入理解和交互。

世界模型统一框架:突破任务特定知识注入的局限性

Micropaper
Micropaper · 2026-03-02T01:00:00Z
面向 Claude Code 的智能自动化与多代理编排系统,85 位 AI 专家协同开发 | 开源日报 No.880

wshobson/agents 是一个智能自动化系统,集成多种代理和插件,支持高效软件开发,提供63个插件和85个AI代理。lss233/kirara-ai 是支持多语言的聊天机器人,兼容多个平台。google/osv-scanner 是漏洞扫描工具,提升数据库质量。isnowfy/snownlp 是处理中文文本的Python库,功能多样。open-mmlab/mmagic 是多模态生成工具箱,支持图像和视频的生成与编辑。

面向 Claude Code 的智能自动化与多代理编排系统,85 位 AI 专家协同开发 | 开源日报 No.880

开源服务指南
开源服务指南 · 2026-02-28T15:35:14Z

商汤推出的AI视频创作工具Seko已吸引10万创作者使用。该工具集成多模态生成模型,用户通过对话即可生成完整视频,支持复杂剧本拆分和一致性输出,显著降低创作成本,成为“AI短剧大师”。

商汤Seko上线一个月,超10万创作者选择它

量子位
量子位 · 2025-09-29T01:56:23Z

生数科技于9月19日完成数亿元A轮融资,资金将用于模型研发和技术创新。该公司在多模态生成技术领域迅速发展,已覆盖200多个国家,生成视频超过4亿次。其Vidu系列产品在AI视频生成中表现突出,吸引了众多行业合作伙伴。

生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道

量子位
量子位 · 2025-09-19T01:49:07Z
听见空间:ASAudio 空间音频表示、理解与生成的全景综述

近年来,空间音频技术迅速发展,研究重点已转向多模态生成与语义推理。浙江大学的学者系统梳理了空间音频的表示、理解、生成任务及评测标准,撰写了综述文章ASAudio,填补了该领域的文献空白。

听见空间:ASAudio 空间音频表示、理解与生成的全景综述

实时互动网
实时互动网 · 2025-09-04T03:57:04Z
CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》

CreateAI发布白皮书,探讨多模态生成技术在动画制作中的应用,以《哪吒2》为例展示AI技术的优势。公司推出“Ruyi”模型以提升生成质量,并开发动漫专属AI平台,获得《金庸群侠传》和《三体》IP授权,增强市场竞争力。

CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》

全球TMT-美通国际
全球TMT-美通国际 · 2025-05-07T02:41:32Z
好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限

OmniSVG是一种统一的可缩放矢量图形生成模型,利用预训练的视觉-语言模型进行多模态SVG生成。它通过参数化SVG命令和坐标,提升了生成复杂SVG的能力,并开源了包含200万个样本的数据集。OmniSVG在多个生成任务中表现优异,展现了在专业设计中的应用潜力。

好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限

机器之心
机器之心 · 2025-04-18T09:51:32Z
利用潜在扩散重新利用蛋白质折叠模型进行生成

PLAID是一种多模态生成模型,通过学习蛋白质折叠模型的潜在空间,能够同时生成蛋白质的1D序列和3D结构。该模型解决了多模态共生成问题,生成全原子结构,并支持功能和生物体提示。PLAID仅需序列数据训练,利用压缩模型提高生成效率,未来可扩展至更复杂系统的多模态生成。

利用潜在扩散重新利用蛋白质折叠模型进行生成

The Berkeley Artificial Intelligence Research Blog
The Berkeley Artificial Intelligence Research Blog · 2025-04-08T10:30:00Z

本研究提出了一种新的统一离散扩散模型UniDisc,旨在解决多模态生成模型在图像与文本理解和生成中的不足,显著提升样本质量、多样性控制和生成效率。

Unified Multimodal Discrete Diffusion Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z
生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

AIxiv专栏报道Liquid框架,该框架通过VQGAN将图像编码为离散视觉token,实现多模态生成与理解的统一。Liquid无需修改现有大语言模型,降低训练成本并保留语言能力,推动多模态智能发展。实验结果表明,Liquid在视觉生成和理解任务中表现优异,验证了多模态任务的互惠关系。

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

机器之心
机器之心 · 2025-03-04T01:18:16Z

本研究回顾了自2022年以来生成性人工智能在创意产业的进展,重点分析了文本到图像、视频及多模态生成技术的突破及其对内容创作的影响,同时指出传媒行业面临的通信流量挑战。

2025年前创意产业中的人工智能:进展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

本研究提出了一种潜在语言建模(LatentLM)方法,旨在解决多模态生成模型中离散与连续数据的整合问题。通过结合因果变换器和变分自编码器,该方法在图像生成和文本到语音合成方面表现出色。

Multimodal Latent Language Modeling with Next Token Diffusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究提出了GATE OpenING基准,解决了开放式交互图文生成评估中数据规模和多样性不足的问题。该基准包含5400个高质量标注实例,涵盖56个真实任务,展示了IntJudge模型在评估多模态生成方法方面的优势,为未来模型发展提供指导。

GATE OpenING: A Comprehensive Benchmark for Evaluating Open-ended Interleaved Image-Text Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究系统评估了视觉领域自回归模型的应用现状,分析了现有方法的贡献、优势与局限,涵盖图像、视频及多模态生成任务,为未来研究提供指导。

视觉自回归模型的综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z

本研究提出Diff-2-in-1框架,解决了扩散模型在密集视觉感知任务中的应用不足,优化了多模态生成与视觉感知的结合,显著提升了生成数据的有效性和多样性。

Diff-2-in-1: Bridging Generation and Dense Perception through Diffusion Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

提出了一种基于3D感知、推理和行动的3D-VLA模型,通过引入交互令牌与具体环境进行交互,训练一系列融入大规模3D语言模型的生成扩散模型以预测目标图像和点云。在大规模数据集上的实验中展示了3D-VLA在推理、多模态生成和规划能力上的显著改进,展示了其在真实世界应用中的潜力。

VG4D:视觉语言模型进入 4D 视频识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码