小红花·文摘 - 小红花技术领袖俱乐部

线上健身课的 RTC 技术解码：音乐节拍同步、多机位跟练与 AI 动作校准

线上健身课的 RTC 技术解码：音乐节拍同步、多机位跟练与 AI 动作校准

实时互动网 ·

选 RTC 连麦供应商该看哪几个指标

选 RTC 连麦供应商该看哪几个指标

实时互动网 ·

连麦场景下的音频处理最佳实践

连麦场景下的音频处理最佳实践

实时互动网 ·

你的 AI 工具好不好，取决于你的音频质量

你的 AI 工具好不好，取决于你的音频质量

实时互动网 ·

4 个常见的视频会议问题及解决方法

4 个常见的视频会议问题及解决方法

实时互动网 ·

为什么如今客户体验 (CX) 的定义取决于对话质量

为什么如今客户体验 (CX) 的定义取决于对话质量

实时互动网 ·

Zeno Media 现已提供 HLS 流媒体服务

Zeno Media 现已提供 HLS 流媒体服务

实时互动网 ·

在Amazon Kinesis Video Streams WebRTC中增加AAC编解码支持

在Amazon Kinesis Video Streams WebRTC中增加AAC编解码支持

亚马逊AWS官方博客 ·

ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025

ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025

实时互动网 ·

WebRTC 的 NetEQ 抖动缓冲如何提供流畅音频

WebRTC 的 NetEQ 抖动缓冲如何提供流畅音频

实时互动网 ·

Meta AI推出的Audiobox-Aesthetics音频质量评估工具，通过四个核心维度对语音、音乐和环境声音进行自动化分析，弥补了传统人工评估的不足，为音频创作者和研究人员提供专业的量化分析。

音频美学评估新范式！Audiobox-Aesthetics 首创四维音频量化；670 万个案例！Caselaw 解锁法律参考的合规蓝本

HyperAI超神经 ·

Stability AI 推出 ARC 后期训练和 Stable Audio Open Small：无蒸馏实现跨设备文本转音频生成的突破

Stability AI 推出 ARC 后期训练和 Stable Audio Open Small：无蒸馏实现跨设备文本转音频生成的突破

实时互动网 ·

Hume 推出 Octave TTS：一种新的文本转语音模型，可根据定制的情绪创建自定义 AI 语音

Hume 推出 Octave TTS：一种新的文本转语音模型，可根据定制的情绪创建自定义 AI 语音

实时互动网 ·

人工智能正在快速实现音频内容的自动化生成

人工智能正在快速实现音频内容的自动化生成

实时互动网 ·

ImmerseDiffusion：一种生成空间音频的潜在扩散模型

ImmerseDiffusion：一种生成空间音频的潜在扩散模型

Apple Machine Learning Research ·

本研究提出了Music2Latent2音频自编码器，旨在高效压缩音频信号并保持音频质量。通过无序摘要嵌入和自回归模型，该方法显著提高了重构质量，优于现有音频自编码器。实验结果表明，其在音频质量和下游任务性能上表现更佳。

Music2Latent2: Audio Compression Based on Summary Embeddings and Autoregressive Decoding

BriefGPT - AI 论文速递 ·

PC 中沉浸式音频体验的高级信号处理

PC 中沉浸式音频体验的高级信号处理

实时互动网 ·

YouTube Premium获得更多实验性功能，用户现在可以一次性测试

YouTube Premium获得更多实验性功能，用户现在可以一次性测试

The Verge ·

本研究提出Smooth-Foley模型，旨在解决视频到音频生成中的语义和时间对齐问题。该模型通过文本标签的语义指导，提升了生成音频的质量和与物理法则的一致性，表现优于现有模型。

Smooth Foley: Generating Continuous Audio for Video Under Semantic Guidance

BriefGPT - AI 论文速递 ·

Haivision：Makito X4 视频编码器支持 NMOS，增强 ST 2110 工作流程

Haivision：Makito X4 视频编码器支持 NMOS，增强 ST 2110 工作流程

实时互动网 ·