上海人工智能实验室的研究者创建了一个虚拟小镇,用于模拟互动3D社会,解决具身智能领域的数据稀缺问题。该小镇包含10万个交互式场景和89种场景类别,主要包括GRScenes场景数据集、GRResidents非玩家角色系统和GRBench评估工具。作者希望这项工作能为具身AI研究提供全面评估。
上海交通大学与上海人工智能实验室联合团队发布了3D医学图像分割大模型SAT,实现对人体497种器官/病灶的通用分割。SAT通过知识注入和文本编码器实现精准编码解剖学术语,构建了多模态医疗知识图谱和最大规模的3D医学图像分割数据集SAT-DS。实验结果表明,SAT在域内和域外测试中性能接近或超过专用模型nnU-Nets和交互式模型MedSAM。SAT还可以作为大语言模型的代理工具,提供分割能力。
清华大学教授周伯文成为上海人工智能实验室主任和首席科学家,提出人工智能45°平衡律和实现该主张的技术路径。他强调人工智能的安全问题,呼吁加强全球AI安全人才交流与合作,构建开放、安全的通用人工智能创新生态和人才发展环境。
上海人工智能实验室推出了类sora开源系统Latte,将DiT和U-ViT架构应用于视频生成领域。Latte使用潜在扩散模型进行扩散和去噪过程,通过预训练的变分自动编码器将视频帧压缩到潜在空间中,并在潜在空间中进行扩散过程。Latte的主干网络有四种变体,分别是空间和时间交替进行、先空间再时间、空间和时间统一、空间和时间分开。Latte的输出是预测的噪声和协方差。Open-Sora 1.0是基于STDiT架构的类Sora模型,使用PixArt-α作为基座,并引入时间注意力层。Open-Sora的训练复现方案包括三个阶段:大规模图像预训练、大规模视频预训练和微调。数据预处理脚本可降低复现门槛。
上海人工智能实验室、华东师范大学、普林斯顿大学、香港大学推出了名为《OS-Copilot:迈向自我完善的多面手计算机代理》的框架,能够与操作系统元素交互。该框架使用Python代码和GPT-4语言模型构建了名为Friday的代理,性能优于GPT-4。这是人工智能操作系统的工作演示,系统将变得更好。
完成下面两步后,将自动完成登录并继续当前操作。