实时互动网 ·

ICIP 2024 | 一种新的多人人物交互数据集与NVS基准

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

上海交通大学在ICIP 2024推出了一个新的人物交互数据集，包含38组30视角的多人或单人RGB-D视频序列，提供摄像机参数、前景掩码和SMPL模型等信息。视频由30台Kinect Azure摄像机以4K分辨率和25FPS拍摄，解决了现有数据集视角有限和分辨率低的问题，为神经视点合成研究提供了基准，旨在推动人物交互和NVS领域的发展。

🎯

关键要点

上海交通大学在ICIP 2024推出新的人物交互数据集，包含38组30视角的RGB-D视频序列。
数据集提供摄像机参数、前景掩码、SMPL模型等信息，解决了现有数据集视角有限和分辨率低的问题。
视频由30台Kinect Azure摄像机以4K分辨率和25FPS拍摄，视频时长为1至19秒。
新数据集旨在推动人物交互和神经视点合成（NVS）领域的发展。
现有数据集主要由有限视角的静态数据组成，阻碍了高质量人物交互研究的开展。
新数据集提供丰富的先验信息，有助于减轻复杂交互模式和遮挡问题的影响。
数据集包含前景掩码、点云、网格文件和SMPL模型，适用于人物交互模型的训练。
在数据集上评估了一些最新的NVS模型，建立了NVS基准。
数据集是唯一一个多视角、动态同步的4K RGB-D数据集，提供多人和物体之间的交互。
希望该工作能够激发更多关于人-物交互和NVS研究的探索。

❓

延伸问答

新的人物交互数据集包含哪些主要内容？

该数据集包含38组30视角的RGB-D视频序列，提供摄像机参数、前景掩码、SMPL模型、点云和网格文件等信息。

这个数据集如何解决现有数据集的不足？

新数据集提供多视角、高分辨率的视频序列，解决了现有数据集视角有限和分辨率低的问题，增强了人物交互研究的质量。

数据集的拍摄设备和参数是什么？

视频由30台Kinect Azure摄像机以4K分辨率和25FPS拍摄，视频时长为1至19秒。

新数据集对神经视点合成（NVS）研究有什么贡献？

新数据集为NVS研究提供了基准，并通过丰富的先验信息帮助减轻复杂交互模式和遮挡问题的影响。

数据集中提供了哪些辅助信息？

数据集提供前景掩码、点云、网格文件和SMPL模型，这些信息可用于人物交互模型的训练。

如何评估数据集上的NVS模型性能？

使用峰值信噪比（PSNR）、结构相似性指数（SSIM）和学习感知图像块相似性（LPIPS）来评估预测图像的质量。

🏷️

继续阅读

谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...
为更多人提供安全的数字身份和支付工具
谷歌钱包正在升级，增强数字身份和支付安全性。新功能允许用户安全证明年龄和身份，计划在欧盟推广。Google Pay直接结账简化了支付流程，提高了安全性，减...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
粉笔科技的人大讲座事件的说明与致歉
粉笔网CEO张小龙在人民大学的讲座中因言辞不当引发争议。他提到AI对就业的影响，认为体制内工作机会减少，并建议学生利用AI工具提升竞争力。因现场反应冷淡，...