小红花·文摘

LeCun团队推出PEVA模型，实现了16秒的连贯场景预测，赋予机器人具身智能，能够主动理解环境。该模型通过结构化动作表示和条件扩散Transformer，模拟人类预判能力，提升智能体的动作规划和视觉生成，标志着AI从“人工智障”向“人工预判”的进化。

量子位 ·

ComfyMind是港科大与字节合作开发的开源视觉生成框架，支持文本到图像、视频等任务，性能接近GPT-4o。其模块化设计结合树状规划与局部反馈，显著提升生成质量与灵活性，适用于多种视觉创作需求。

量子位 ·

游戏研究社 ·

浙大与上海AI Lab提出的邻近自回归建模（NAR）通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升，减少了生成步骤，特别在高分辨率图像和视频生成中表现出优势。

量子位 ·

本研究提出了一种预训练元规则选择策略，以降低视觉生成推理学习中的逻辑归纳时间成本。该策略通过减少候选元规则集和修剪搜索空间，提高学习效率，并纠正预训练过程中的符号归纳错误。

BriefGPT - AI 论文速递 ·

Deepseek Janus-Pro发布，提升了多模态理解和视觉生成能力。用户可以理解图像细节并生成逼真图像。教程包括Docker安装、构建自定义镜像、运行容器及测试Janus-Pro的功能，表现出色，具有高实用价值。

KDnuggets ·

本研究提出了UniTok，一个统一的视觉分词器，旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义，通过多代码簿量化扩展潜在特征空间，显著提升视觉任务的表现。

BriefGPT - AI 论文速递 ·

本研究探讨了多图像视觉到文本生成的挑战，强调了处理图像间复杂关系的重要性，并分析了相关任务的建模和评估方法中的共同问题，提出了未来研究方向。

BriefGPT - AI 论文速递 ·

该研究提出了一种索引反向传播量化（IBQ）方法，解决了现有向量量化在可扩展性方面的不足，并优化了代码本与视觉编码器的联合训练。实验结果表明，IBQ在视觉生成任务中表现优异。

BriefGPT - AI 论文速递 ·

本研究提出了一种可控自回归建模框架，解决了视觉生成模型中自回归模型的可控性和灵活性不足的问题。通过将条件控制融入多尺度潜变量建模，显著提高了生成过程的可控性和图像质量，并在减少训练资源的情况下表现出强大的泛化能力。

BriefGPT - AI 论文速递 ·