BriefGPT - AI 论文速递 ·

街景：基于自回归视频扩散的大规模一致街景生成

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

该研究提出了一种生成城市风景全景长序列视图的方法，通过动态合成大规模场景实现。研究借鉴了视频扩散的研究成果，在自回归框架的基础上进行建模，并引入了一种新的时间插补方法。

🎯

关键要点

该研究提出了一种生成城市风景全景长序列视图的方法。
方法通过动态合成大规模场景实现，受到语言输入和基础地图的条件约束。
与视频生成模型或3D视图合成方法相比，该方法可扩展到更长的摄像机轨迹，保持视觉质量和一致性。
研究借鉴了视频扩散的成果，在自回归框架下建模，易于扩展到长序列。
引入了一种新的时间插补方法，确保自回归方法不偏离现实城市图像的分布。
使用来自Google Street View的姿势图像和上下文地图数据训练系统，用户可生成城市视图。

🏷️

继续阅读

什么是视频问诊?
你在医院小程序里看到过”视频问诊”入口，或者在新闻里读到某家互联网医院上线了视频问诊服务。你大概知道它是远程看病的，但真要你说清它和微信视频通话有什么区别、...
VideoProc 年中4折：N合一超强下载、图像增强、视频处理，工具箱全家桶一次带走
你的赛博头痛是哪一种？想保存 YouTube 视频或者 B 站教程，结果下载器跑到一半直接报错，或者干脆就动不了。在ins上扒了一张很满意的图，结果分辨...
App+1 | 把「从长视频截取片段」做到极致：Trimly
作为有多年专业音视频开发经验的技术工作者，我给自己，以及可能也有类似需求的你，做了一个把「从长视频里截取片段」这件事做到极致的产品。查看全文
Firefox 153 版本发布，支持 Vulkan 视频解码，并实验性支持 JPEG-XL 格式
2026年7月20日，Mozilla 发布了 Firefox 153.0 的正式版二进制文件，这是这款跨平台网络浏览器的最新月度更新。Firefox 15...
视频在线问诊解决方案 2026：完整功能指南与集成建议
视频在线问诊已成为远程医疗的基础设施，一套完整的解决方案应覆盖实时音视频通话、设备与网络检测、消息互动、屏幕共享和录制回放五大能力，选型时优先关注端到端延...
WebRTC 如何悄然重塑了网络上的实时视频
实时视频曾经是一件既繁重又脆弱的事情。十年前，要在屏幕上实时显示两张脸，需要浏览器插件、专用服务器，还得忍受如今我们无法接受的延迟。那些曾经规划光纤路线、...

内容提要

关键要点

标签

继续阅读