字节版Sora推出Seaweed和PixelDance视频模型,支持文生和图生视频,时长可达10秒。PixelDance具备多主体交互和多镜头一致性,能在一句提示词内切换多个镜头。其论文入选CVPR 2024,提出基于潜在扩散模型的方法,通过图像和视频联合训练,保持高保真生成。团队在WebVid-10M数据集上训练,并扩展无水印视频数据集,提升生成效果。产品已在火山引擎测试。
北京理工大学计算机学院团队在CVPR 2024提出了一种新的知识蒸馏框架——PlanKD,可提升自动驾驶系统性能一倍左右,无额外成本。实验结果显示,使用PlanKD后性能提升50-100%。该方法解决了自动驾驶中大模型参数量大、计算资源占用多的问题。
本研究报告介绍了在CVPR 2024年的EgoVis挑战中的解决方案,包括Ego4D挑战和EPIC-Kitchens挑战。通过新型基础模型EgoVideo,基于视频语言双塔模型和自我中心视频数据,展示了其在不同自我中心视频分析场景中的多功能性和有效性。
该研究提出了一种针对农业视觉数据集的语义分割模型,解决了类别不平衡问题,并通过概率后处理方法提高了稀有类别的预测准确性。在CVPR 2024农业愿景挑战中获得第二名。
该报告介绍了团队在CVPR2024的Ego4D Looking At Me挑战中的解决方案,使用InternLSTM提取特征判断人是否面向佩戴摄像头的摄像机,采用Gaze Smoothing滤波器消除噪音或波动。在挑战中获得第一名,mAP为0.81,准确率为0.93。
心血管疾病是全球死亡的主要原因。研究人员提出了一种新的超声心动图视频分割模型MemSAM,成功入围CVPR2024最佳论文的候选名单。该模型使用记忆作为提示当前帧的分割,并通过记忆增强机制提高记忆质量。实验证明,该模型在少量点提示和有限注释的情况下实现了最先进的性能。此研究对于自动化评估心血管疾病具有重要意义。
本文提出了一个简单而有效的解决方案,通过分析数据集分布、引入公共静态和视频分割数据集增补数据集,改进了三种不同特性的网络结构并训练多个网络去学习视频中物体的不同特性,通过整合和后处理确保精准的视频对象分割。在Youtube-VOS数据集上的实验表明,该解决方案达到了86.1%的整体分数,是Youtube-VOS Challenge 2022中视频对象分割轨迹第五名的最新技术水平。
百度推动大模型技术发展,构建了业界规模最大的产业大模型体系。百度将在CVPR2024举办大模型workshop和CVPR NAS小型化workshop,促进技术交流与学习。百度飞桨平台助力文心大模型的高效训练。百度希望通过技术优势和飞桨平台支持,推动AI技术的发展和应用。
完成下面两步后,将自动完成登录并继续当前操作。