LeCun团队推出PEVA模型,实现了16秒的连贯场景预测,赋予机器人具身智能,能够主动理解环境。该模型通过结构化动作表示和条件扩散Transformer,模拟人类预判能力,提升智能体的动作规划和视觉生成,标志着AI从“人工智障”向“人工预判”的进化。
ComfyMind是港科大与字节合作开发的开源视觉生成框架,支持文本到图像、视频等任务,性能接近GPT-4o。其模块化设计结合树状规划与局部反馈,显著提升生成质量与灵活性,适用于多种视觉创作需求。
腾讯推出的“混元游戏视觉生成平台”是基于混元大模型的AIGC游戏内容生产引擎,旨在优化游戏素材生成流程。该平台具备“AI美术管线”和“实时画布”等功能,能够快速生成高质量图像,减轻开发负担,特别适合小型团队,支持“以文生图”和“以图生图”,提升游戏开发效率。
浙大与上海AI Lab提出的邻近自回归建模(NAR)通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升,减少了生成步骤,特别在高分辨率图像和视频生成中表现出优势。
本研究提出了一种预训练元规则选择策略,以降低视觉生成推理学习中的逻辑归纳时间成本。该策略通过减少候选元规则集和修剪搜索空间,提高学习效率,并纠正预训练过程中的符号归纳错误。
Deepseek Janus-Pro发布,提升了多模态理解和视觉生成能力。用户可以理解图像细节并生成逼真图像。教程包括Docker安装、构建自定义镜像、运行容器及测试Janus-Pro的功能,表现出色,具有高实用价值。
本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。
本研究探讨了多图像视觉到文本生成的挑战,强调了处理图像间复杂关系的重要性,并分析了相关任务的建模和评估方法中的共同问题,提出了未来研究方向。
该研究提出了一种索引反向传播量化(IBQ)方法,解决了现有向量量化在可扩展性方面的不足,并优化了代码本与视觉编码器的联合训练。实验结果表明,IBQ在视觉生成任务中表现优异。
本研究提出了一种可控自回归建模框架,解决了视觉生成模型中自回归模型的可控性和灵活性不足的问题。通过将条件控制融入多尺度潜变量建模,显著提高了生成过程的可控性和图像质量,并在减少训练资源的情况下表现出强大的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。