本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。
Meta推出的VideoJAM框架显著提升了运动一致性近20%,能够生成复杂的舞蹈和杂技等动态场景,效果接近真实。该框架在训练和推理阶段优化了DiT模型,采用联合外观-运动表示和内部引导机制,确保生成视频的运动连贯性。
OpenAI于周一推出了文本转视频AI模型Sora,供ChatGPT订阅用户使用。该模型支持从文本生成视频、动画和视频混合。ChatGPT Plus用户可生成50个优先视频,分辨率最高720p;而ChatGPT Pro用户则可无限生成500个优先视频,分辨率可达1080p。生成的视频将带有水印和C2PA元数据,用户需遵守上传协议。
本研究提出了一种新的视频扩散模型压缩方法,通过去除冗余浅层区块,提升推理速度,同时保持生成视频的质量和一致性。实验结果表明,该方法显著加快了文本和图像生成视频的推理时间。
本研究提出了SG-I2V框架,解决生成视频中特定元素的调整问题。通过预训练的图像到视频扩散模型实现零样本控制,结果在视觉质量和运动保真度上优于无监督基线。
中国公司爱诗科技发布了AI视频新产品PixVerse V2,支持一键生成至多5段连续的视频内容,用户只需输入提示词即可生成视频,每次生成需消耗50 Credits。PixVerse V2还支持文/图生视频,用户可选择生成的视频片段长度。该产品使更多人能参与AI视频创作,将AI视频带入全民时代。
文章讨论了交友的两种方式:童年时基于邻近关系,成年后基于兴趣,指出Reddit是交友的好平台。同时提到生成视频工具可能使每个人都能成为导演。作者还与领导讨论了团队中女生较多导致冲突的现象,反映出职场对女性的偏见。
完成下面两步后,将自动完成登录并继续当前操作。