小红花·文摘 - 小红花技术领袖俱乐部

物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实

物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实

实时互动网 ·

本研究提出YingSound模型，解决产品视频生成音效时标记数据不足的问题。该模型通过条件流匹配变换器实现音频与视觉的语义对齐，并引入多模态思维链方法，实验结果表明其能有效生成高质量的同步音效。

YingSound: Video-Guided Sound Effect Generation Controlled by Multimodal Thinking Chains

BriefGPT - AI 论文速递 ·

AutoFoley 是一种全自动深度学习工具，能够生成与视频同步的逼真音轨。该系统通过提取视频中的关键情节，利用深度学习模型生成音效，简化声音设计过程。研究表明，基于 Transformer 的架构在匹配视觉模式方面表现优秀，Foley Music 系统能生成高质量音乐，优于现有系统。

FoleyCrafter: 用真实且同步的声音赋予无声视频生机

BriefGPT - AI 论文速递 ·

ElevenLabs的AI生成器仅需输入提示即可生成爆炸声或其他音效

ElevenLabs的AI生成器仅需输入提示即可生成爆炸声或其他音效

The Verge ·