小红花·文摘

今年CVPR看点是广东：何恺明再获至高大奖，广工大打破大厂名校垄断

量子位 ·

减少高斯，增加纹理：4K前馈纹理喷溅

Apple Machine Learning Research ·

AI 生图精品提示词｜第一期

Frytea's Blog ·

AI 论文周报丨红队测试语言模型/多视角 3D 点追踪方法/蛋白质表示学习框架/密码学漏洞检测新框架……

HyperAI超神经 ·

本文全面综述了基于事件相机的3D重建技术，分析了不同输入方式和重建方法的现有成果，指出了数据可用性、评估和动态场景处理的局限性，并展望了未来的发展方向。

基于事件相机的 3D 重建调研：从事件驱动几何到神经 3D 渲染

BriefGPT - AI 论文速递 ·

本研究提出了一种利用单目连续波飞行时间（C-ToF）摄像头重建动态场景的方法，优化了场景几何表示，能够在受限条件下实现高保真的动态三维重建，尤其在快速运动场景中表现优异。

Gaussian Time-of-Flight: Indirect Depth Optimization in Dynamic Radiance Fields

BriefGPT - AI 论文速递 ·

本研究提出MASSeg模型，解决复杂视频物体分割中的小物体识别、遮挡处理和动态场景建模问题，利用MOSE+数据集和数据增强策略显著提升模型性能。

MASSeg：第四届PVUW MOSE赛道第二技术报告

BriefGPT - AI 论文速递 ·

小米汽车首曝自动驾驶研究：相机和LiDAR联合重建框架Uni-Gaussians

机器之心 ·

突破：人工智能创造完美的动态人物和物体的3D视频，甚至在大空间中

DEV Community ·

本研究提出了一种新方法4DGS-1K，旨在解决现有4D高斯散点技术在动态场景重建中的存储需求和渲染速度问题。该方法通过引入时空变化评分，显著降低了存储需求，并实现了超过1000帧每秒的渲染速度，同时保持了视觉质量。

4D Gaussian Splatting Technology for Dynamic Scene Rendering at 1000+ Frames Per Second

BriefGPT - AI 论文速递 ·

本研究提出了一种新的基于规则的决策框架，解决了传统方法在动态场景中的抖动和死锁问题，特别是在代理群体对抗中。该框架结合了概率有限状态机、深度卷积网络和强化学习，显著提升了代理的合作与竞争策略，实验结果表明其性能优于其他方法。

Application of Rule-Based Conflict-Free Decision Framework in Swarm Confrontation

BriefGPT - AI 论文速递 ·

ICLR 2025 Spotlight | 让城市「动」起来！DynamicCity突破4D大场景生成技术边界

机器之心 ·

Meta推出的VideoJAM框架显著提升了运动一致性近20%，能够生成复杂的舞蹈和杂技等动态场景，效果接近真实。该框架在训练和推理阶段优化了DiT模型，采用联合外观-运动表示和内部引导机制，确保生成视频的运动连贯性。

Meta新视频生成框架拿捏倒立杂技，双人舞也能完美同步！运动一致性暴增近20%，可无缝集成DiT模型

量子位 ·

本研究提出了StreamChat框架，旨在解决现有视频理解模型在长视频、多轮对话和动态场景中的不足。通过分层记忆系统，StreamChat实现了高效的视频特征处理，实验结果表明其在准确性和响应时间上优于现有模型。

Stream Media Video Understanding and Enhanced Memory Knowledge for Multi-turn Interaction

BriefGPT - AI 论文速递 ·

该研究提出了CatV2TON方法，旨在提升虚拟试穿技术在图像和视频中的质量。通过时间拼接衣物和人像输入，该方法在混合数据集上训练，显著改善了静态和动态场景下的虚拟试穿效果，展现出良好的应用潜力。

CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

BriefGPT - AI 论文速递 ·

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

机器之心 ·

本研究提出了Driv3R框架，显著提高了自主驾驶中动态场景的实时4D重建速度和准确性，推理速度比现有方法快15倍。

Driv3R：用于自主驾驶的稠密4D重建学习

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过稀疏多视角事件流和RGB帧实现动态场景的时空重建，超越了RGB基线，取得了先进的效果。

Dynamic Event Neural Radiance Fields: Reconstructing General Dynamic Scenes from Multi-View Event Cameras

BriefGPT - AI 论文速递 ·

本研究提出了一种新的动态场景表示方法SaRO-GS，旨在解决视频序列重建动态场景时的渲染速度慢和处理复杂性问题。该方法结合了尺度感知残差场和自适应优化策略，在实时渲染中展现出优越的性能。

4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Complex Dynamic Scenes

BriefGPT - AI 论文速递 ·

本研究提出CAT4D方法，填补了从单目视频生成4D场景的技术空白。该方法结合多视角视频扩散模型和新采样技术，实现了精准的4D重建，并在新视角合成和动态场景重建方面表现出色。

CAT4D: Creating 4D Dynamic Scenes Using Multi-View Video Diffusion Models

BriefGPT - AI 论文速递 ·