北京大学施柏鑫团队与OpenBayes合作推出PanoWan框架,通过文本引导生成全景视频,解决了生成过程中的畸变和不连贯问题,采用纬度感知采样和边界填充技术。同时,团队构建了包含1.3万个视频片段的PanoVid数据集,推动VR内容创作的发展。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
本文探讨了结合生物学方法与深度学习技术,以提升眼动追踪系统的精确度和效率。研究展示了通过神经形态学方法和人工智能导航算法,优化眼动追踪和视觉模拟工具,旨在改善视觉科学研究和视力矫正技术的应用。
本文介绍了一种基于深度学习的纤维定向分布重建方法,旨在提高扩散磁共振成像(dMRI)的效率和准确性。该方法采用新型的球形反卷积网络和变压器架构,能够在减少采集方向的情况下实现高质量的纤维重建,尤其在阿尔茨海默病数据分析中表现突出。同时,研究探讨了无监督异常检测和噪声处理技术在医学图像分析中的应用潜力。
通过利用潜在扩散模型的失真先验信息,提出了一种基于深度学习的遥感图像压缩方法,该方法利用生成的先验信息,通过增强网络实现对图像的质量提升。
本文探讨了盲图像质量评估(BIQA)模型的优化,提出了一种“统一”的BIQA模型,通过合成与真实失真的训练方法,提高了模型在不同失真场景下的评估精度。研究展示了双向生成领域自适应模型和基于深度学习的图像质量评估方法,在多个数据集上表现优越,解决了领域泛化的挑战。
本文探讨了一种通用的扩散模型DMD,该模型能够有效建模室内外场景,减少深度估计误差。通过对数尺度深度参数化和多样化训练,DMD在零样本数据集上表现优异,并且无需额外模块即可提供可靠的不确定性估计。此外,研究提出了多种深度估计和相机标定方法,提升了三维场景的重建精度。
本文提出了一种改进的运动结构法(SfM)算法,能够在滚动快门影响下估计相对姿态,并提供9点算法复原相机姿态。研究了基于双重滚动快门的成像方法和自适应扭曲模型,展示了在动态场景中消除滚动快门效应的有效性。此外,提出了自监督训练的DRSC网络框架和基于深度学习的校正方法,均显示出优于现有技术的性能。
本文提出了一种新颖的双路径无监督域自适应框架DPPASS,旨在解决全景语义分割中的畸变问题。通过交叉投影和内部投影训练,显著提高了性能并减少了参数。此外,针对无人车自主驾驶中的360度视角图像分割,提出了基于注意力机制的自适应算法框架P2PDA,取得了更高的准确率和效率。
本文提出了一种方法来塑造鱼眼特定的空间表示,以反映数据模态中的畸变和语义上下文之间的相互作用。该方法通过学习畸变和语义上下文之间的相互作用,应用于目标检测任务,实现了1.1%的性能提升,并超过了其他表征学习方法0.6%的性能。
通过嵌入局部失真特征和使用更大的预训练模型,该方法在IQA数据集上取得了最先进的性能,证明IQA能从大规模预训练模型中受益。
本文介绍了一种名为HRDA的多分辨率训练方法,通过结合小的高分辨率裁剪和大的低分辨率裁剪,以及学习到的比例关注,来提高语义分割的UDA性能。该方法能够保留细节并捕获上下文信息,从而在GTA到Cityscapes和Synthia到Cityscapes的mIoU上分别达到73.8和65.8。
完成下面两步后,将自动完成登录并继续当前操作。