研究者提出了一种名为FlowMo的图像tokenization改进方案,通过两阶段训练提升图像重建质量。FlowMo在ImageNet-1K数据集上表现优异,采用基于Transformer的扩散自编码器,优化了图像压缩与重建过程。
研究者提出了一种名为扩散自蒸馏(DSD)的方法,通过预训练的文本到图像模型生成数据集,提升图像生成的一致性和定制性。DSD在零样本定制图像生成方面优于现有方法,适用于多种任务,无需微调或训练个性化模型。
李飞飞和吴佳俊团队推出了具身智能决策能力的评估基准EAI,全面评估了18款主流模型。测试结果显示,o1-preview在BEHAVIOR和VirtualHome环境中均获第一,促进了对大模型优缺点的深入理解。
斯坦福团队提出的“场景语言”将自然语言转化为三维场景,结合程序语言、自然语言和神经网络,显著提升了AI生成和编辑3D场景的能力,展现了在游戏和建筑设计等领域的创新潜力。
斯坦福大学的李飞飞和吴佳俊团队推出了HourVideo数据集,以评估长视频理解能力。该数据集包含500个第一人称视角的视频,时长20至120分钟,涵盖77种日常活动。实验结果表明,现有多模态模型在长视频理解方面的表现远低于人类专家,亟需改进。
斯坦福吴佳俊团队与MIT合作开发的WonderWorld,能够在10秒内实时生成3D场景,速度比现有方法快近100倍。用户只需上传一张图片,即可交互生成无限扩展的虚拟世界,支持多种场景和视觉风格,显著提升了交互式3D生成的可能性。
完成下面两步后,将自动完成登录并继续当前操作。