小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

字节团队研发的生成精炼网络(GRN)是一种新一代视觉生成模型,能够在生成过程中实时修改,解决了传统扩散和自回归模型的缺陷。GRN根据画面复杂度智能分配计算步骤,生成效果优于现有主流模型,在图像和视频生成任务中表现出色,为视觉生成开辟了新路径,未来有望提升多模态理解与生成能力。

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

量子位
量子位 · 2026-05-13T14:04:35Z

LeCun团队推出PEVA模型,实现了16秒的连贯场景预测,赋予机器人具身智能,能够主动理解环境。该模型通过结构化动作表示和条件扩散Transformer,模拟人类预判能力,提升智能体的动作规划和视觉生成,标志着AI从“人工智障”向“人工预判”的进化。

LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE

量子位
量子位 · 2025-06-30T07:54:38Z

ComfyMind是港科大与字节合作开发的开源视觉生成框架,支持文本到图像、视频等任务,性能接近GPT-4o。其模块化设计结合树状规划与局部反馈,显著提升生成质量与灵活性,适用于多种视觉创作需求。

效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广字节全新框架

量子位
量子位 · 2025-06-07T05:54:16Z
腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务

腾讯推出的“混元游戏视觉生成平台”是基于混元大模型的AIGC游戏内容生产引擎,旨在优化游戏素材生成流程。该平台具备“AI美术管线”和“实时画布”等功能,能够快速生成高质量图像,减轻开发负担,特别适合小型团队,支持“以文生图”和“以图生图”,提升游戏开发效率。

腾讯发布首个工业级AIGC生产引擎,可提供一站式AI素材生成服务

游戏研究社
游戏研究社 · 2025-05-20T16:00:00Z

浙大与上海AI Lab提出的邻近自回归建模(NAR)通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升,减少了生成步骤,特别在高分辨率图像和视频生成中表现出优势。

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

量子位
量子位 · 2025-03-30T02:55:59Z

本研究提出了一种预训练元规则选择策略,以降低视觉生成推理学习中的逻辑归纳时间成本。该策略通过减少候选元规则集和修剪搜索空间,提高学习效率,并纠正预训练过程中的符号归纳错误。

Pre-Training Meta-Rule Selection Strategy for Visual Generative Abductive Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

Deepseek Janus-Pro发布,提升了多模态理解和视觉生成能力。用户可以理解图像细节并生成逼真图像。教程包括Docker安装、构建自定义镜像、运行容器及测试Janus-Pro的功能,表现出色,具有高实用价值。

在本地部署Deepseek Janus-Pro

KDnuggets
KDnuggets · 2025-03-06T13:00:48Z

本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。

UniTok: A Unified Tokenizer for Visual Generation and Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本研究探讨了多图像视觉到文本生成的挑战,强调了处理图像间复杂关系的重要性,并分析了相关任务的建模和评估方法中的共同问题,提出了未来研究方向。

Natural Language Generation from Visual Sequences: Challenges and Future Directions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

该研究提出了一种索引反向传播量化(IBQ)方法,解决了现有向量量化在可扩展性方面的不足,并优化了代码本与视觉编码器的联合训练。实验结果表明,IBQ在视觉生成任务中表现优异。

驯服可扩展的视觉标记器用于自回归图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究提出了一种可控自回归建模框架,解决了视觉生成模型中自回归模型的可控性和灵活性不足的问题。通过将条件控制融入多尺度潜变量建模,显著提高了生成过程的可控性和图像质量,并在减少训练资源的情况下表现出强大的泛化能力。

Controllable Autoregressive Modeling for Visual Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码