小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了T2VTextBench,这是首个评估视频生成模型中文本准确性和时间一致性的人类评估基准。测试结果显示,大多数模型在生成清晰一致的文本方面面临显著挑战,为未来改善视频合成中的文本处理提供了研究方向。

T2VTextBench:一种用于视频生成模型文本控制的人类评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种新型水印技术LVMark,旨在解决现有水印技术在视频生成模型中处理时序信息的不足。LVMark能够在保持视频质量的同时嵌入水印信息,具有保护视频生成模型所有权的重要价值。

LVMark: A Robust Watermark for Latent Video Diffusion Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了PaintScene4D框架,旨在生成真实感动态4D场景。该框架通过多样数据集训练的视频生成模型和摄像机阵列选择,实现了空间和时间的一致性,提升了场景的真实感与灵活性。重要发现是其无训练架构能够高效生成可从任意轨迹查看的4D场景。

PaintScene4D:基于文本提示的一致性4D场景生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
缩小差距:评估视频生成的物理现实性

本文探讨视频生成模型与物理法则的关系,评估其模拟现实世界的能力。研究提出了一种框架,系统评估视频生成的物理现实性,发现当前模型在捕捉物理法则方面存在显著差距。这项研究对AGI和物理常识推理等领域具有重要意义。

缩小差距:评估视频生成的物理现实性

DEV Community
DEV Community · 2024-11-08T09:09:26Z

本研究探讨视频生成模型是否能通过视觉数据发现遵循物理法则的世界模型。通过二维运动与碰撞模拟测试,发现模型在同分布下表现良好,但在不同分布场景下泛化能力不足,主要依赖实例泛化,表明模型无法揭示基本物理法则。

从物理法则视角看视频生成与世界模型的距离

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z
OpenAI 不 Open 了?公司重组、高层地震,但也没坏得那么糟糕

OpenAI 计划重组为营利性共益公司,不再由非营利性董事会控制。重组后,非营利组织将持有少数股权,公司估值可能达 1500 亿美元,并需取消投资者回报上限。近期高管离职引发关注,包括 CTO Mira Murati。OpenAI 还在改进视频生成模型 Sora。尽管面临挑战,此变动可能为 AI 行业带来新机遇。

OpenAI 不 Open 了?公司重组、高层地震,但也没坏得那么糟糕

爱范儿
爱范儿 · 2024-09-26T03:54:06Z
RTX3090可跑,360AI团队开源最新视频模型FancyVideo,红衣大叔都说好

奇虎360-AIGC团队和中山大学联合研发的FancyVideo是一种基于UNet架构的视频生成模型,可在消费级显卡上生成任意分辨率、宽高比、风格和运动幅度的视频。通过跨帧文本引导模块,FancyVideo改进了现有文本控制机制,提高了视频生成的质量、文本一致性、运动性和时序一致性。该模型在EvalCrafter Benchmark、UCF-101和MSR-VTT Benchmark上取得了领先的结果。FancyVideo还支持视频扩展和视频回溯操作。未来,FancyVideo团队计划发布更好的模型并上线网页版本供免费使用。

RTX3090可跑,360AI团队开源最新视频模型FancyVideo,红衣大叔都说好

机器之心
机器之心 · 2024-08-26T07:05:15Z

本文研究了GenAI-Bench上的图像和视频生成模型的性能,发现VQAScore评分优于人类评分,并可通过简单排名提高生成速度。在复合提示下,VQAScore的排名效果比其他评分方法提高2倍至3倍。

K-Sort Arena:基于K次人类偏好的生成模型高效可靠基准评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-26T00:00:00Z
智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

智谱AI开源了视频生成模型CogVideoX,该模型可生成高精度视频,已在国内获得好评。模型包含多个尺寸大小的模型,推理和微调所需的显存较小。智谱AI使用3D VAE视频压缩方法,结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。智谱AI还提出了一种从图像字幕生成视频字幕的管道,并微调了视频字幕模型。智谱AI使用多个指标评估文本到视频生成的质量。未来,智谱AI将继续探索新型模型架构和更高效的视频压缩方法。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

机器之心
机器之心 · 2024-08-06T11:19:59Z

智谱AI开源了可商用的视频生成模型CogVideoX,GitHub上获得了3.7K个Star。模型支持人物特写和一镜到底等效果,且可在线体验。模型在单卡A100上生成视频仅需90秒。技术报告公开了模型的三大技术亮点:高效的三维变分自编码器结构、专家Transformer和负面标签数据处理。

智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub狂揽3.7K星

量子位
量子位 · 2024-08-06T03:11:18Z

这篇文章介绍了一种利用互联网上训练的视频生成模型实现机器人通用任务规划的方法。作者解决了基于视频的规划中的三个挑战,包括任务沟通、视频生成和将视觉规划转化为机器人动作。他们提出了一种语言手势调节生成视频的方法,并建议一种行为克隆设计,将视频规划与机器人动作结合。这项研究展示了最先进的效果,并证明了使用视频生成作为通用任务规划和执行的中间表示的合理性。

这个与那个:基于语言和手势的机器人规划视频生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z
快手可灵文生视频大模型

快手推出了名为可灵AI的视频生成模型,具有高效的训练基础设施和可扩展的基础架构。该模型能够生成长达2分钟、帧率达30fps的视频,采用3D时空联合注意力机制,能够建模复杂时空运动,生成较大幅度运动的视频内容。可灵AI还能模拟真实世界的物理特性,生成符合物理规律的视频。用户可以通过申请试用来体验该模型。

快手可灵文生视频大模型

迷途小书童
迷途小书童 · 2024-06-12T10:38:15Z

谷歌推出了视频生成模型Veo和文本到图像模型Imagen 3,具有高质量和先进的语义理解能力。与Donald Glover和Wyclef Jean等合作推出新作品。谷歌致力于负责任地开发和部署生成技术,并采取了安全措施。

为创作者打造的新一代生成媒体模型和工具

The Keyword
The Keyword · 2024-05-14T18:00:00Z

本文研究了Fréchet Video Distance(FVD)作为评估视频生成模型的指标。通过解耦帧质量和运动质量,发现FVD对时域轴的敏感性较小。研究发现FVD偏向于个别帧的质量,这可以归因于从内容偏向数据集训练的受监督视频分类器提取的特征。使用最近的大规模自监督视频模型提取的特征的FVD对图像质量偏向较小。通过验证假设,重新审视了一些现实世界的例子。

关于 Fréchet 视频距离中的内容偏差

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z
技术神秘化的去魅:Sora关键技术逆向工程图解

本文介绍了视频生成模型Sora的结构和训练过程,包括采用的TECO模型、Diffusion Model和Spacetime Latent Patch等。Sora基于Transformer网络,旨在生成高质量、长时一致性的视频。训练过程包括两阶段,支持多种方式的视频生成。文章还讨论了Sora作为物理世界模拟器的可能性。

技术神秘化的去魅:Sora关键技术逆向工程图解

知乎每日精选
知乎每日精选 · 2024-03-20T03:33:48Z

该论文介绍了Sora,一个大规模通用视频生成模型,以及一个名为Mora的新的多智能体框架。Mora通过多个视觉AI代理来复制Sora的视频生成能力,并希望通过合作的AI代理引导未来的视频生成方向。

Mora: 通过多代理框架实现通用视频生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-20T00:00:00Z

OpenAI的首个视频生成模型sora引发了对文生图和文生视频的热情。清华大学团队推出了Latent Consistency Models (LCM),通过解决潜在空间中的概率流ODE,实现了快速的一步生成。LCM-LoRA是LCM的一种快速、无需训练的推理方法。Stable Diffusion XL Turbo是一种新一代图像合成模型,能够实时响应并生成图像。SDXL使用对抗扩散蒸馏技术,在1-4步内高效采样大规模基础图像扩散模型。

文生图的最新进展:从一致性模型CMs、LCM、SDXL到Stable Diffusion3、SDXL-Lightning

结构之法 算法之道
结构之法 算法之道 · 2024-02-27T12:19:57Z
Sora技术报告 视频生成模型作为世界模拟器 笔记

OpenAI的视频生成模型Sora能够生成高保真度、各异的视频,使用视觉补丁作为表示形式,并通过变压器架构进行操作。它能够根据文本提示生成视频,接受现有图像或视频作为输入,并具有一些有趣的模拟能力。扩大视频模型的规模是构建物理世界通用模拟器的有前景的路径。

Sora技术报告 视频生成模型作为世界模拟器 笔记

plus studio
plus studio · 2024-02-16T17:55:00Z
Sora - 创造物理世界模拟器的希望之路

OpenAI发布了名为Sora的视频生成模型,其作品质量超过竞争对手10倍。Sora在技术上实现了多项突破,包括物理空间、人类和动物的真实性以及主体和环境互动的真实性。与竞品不同,Sora的目标是研究一种模拟世界的通用方法。

Sora - 创造物理世界模拟器的希望之路

橘子汽水铺
橘子汽水铺 · 2024-02-16T10:09:39Z

该文章介绍了一种新的视频生成模型,使用混合的显式隐式三平面表示法和单一潜变量模型来捕捉依赖关系,并通过合成单个视频帧来生成整个视频序列。该方法计算复杂性降低了2倍,减少了视觉伪影的生成。通过集成基于光流的模块,进一步增强了模型的能力,能够合成高保真的视频片段。在三个不同数据集上验证了该方法的有效性和多功能性。

RAVEN:以高效的三层平面网络重新思考对抗性视频生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码