小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
以数据为中心的教训:改进语音语言预训练

本文探讨了通过数据中心方法改进语音语言模型(SpeechLMs)预训练的策略,重点关注处理原始音频、构建合成数据集和文本与音频交错训练。研究表明,经过有效数据整理的3.8B参数模型SpeLangy在性能上超越了更大模型10.2%。这些发现为未来的语音语言模型数据探索提供了指导。

以数据为中心的教训:改进语音语言预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z
美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团LongCat团队开源了LongCat-Audio-Codec,解决了语音大语言模型在Token化中的难题。该方案通过双Token并行提取、低延迟解码和超低比特率高保真设计,实现了高效音频处理,提升了语音理解与生成质量,降低了技术门槛,丰富了应用场景,推动了语音智能系统的发展。

美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团技术团队
美团技术团队 · 2025-11-14T00:00:00Z

随着视频创作的普及,无线麦克风成为热门工具。DJI Mic 3注重隐形佩戴和集成设计,适合智能化音频处理;而LARK MAX 2则强调轻量化和模块化,追求原声效果。用户可根据需求和创作风格选择合适的麦克风。

购物节想入手无线麦克风?我们来聊聊其中可能最受关注的两款

少数派
少数派 · 2025-11-03T07:05:42Z
Final Cut Pro 音频降噪、人声增强插件,优化视频中的人声表现

FxFactory 的 AudioDenoise AI 插件可智能降噪,保持人声清晰,用户可调节降噪强度和频段,适用于多种场景。

Final Cut Pro 音频降噪、人声增强插件,优化视频中的人声表现

张洪Heo
张洪Heo · 2025-10-24T09:53:45Z
Lawo 与音频插件公司 Waves Audio 合作,在沉浸式音频领域掀起波澜

Lawo与Waves Audio合作,将沉浸式音频处理工具引入mc²调音台,推出的新插件Immersive Wrapper可将单声道插件转换为多通道处理器,兼容现有调音台,提升音频创作自由度。

Lawo 与音频插件公司 Waves Audio 合作,在沉浸式音频领域掀起波澜

实时互动网
实时互动网 · 2025-09-19T02:38:57Z
Tonverk是Elektron的新款多音采样器和节奏盒

Elektron推出了新款多音采样器Tonverk,具备强大的音频处理功能和八轨多音采样能力,适合实验音乐制作,价格为1599美元,受到热烈追捧。

Tonverk是Elektron的新款多音采样器和节奏盒

The Verge
The Verge · 2025-09-11T16:36:45Z
OBS Studio 32.0 进入公开 Beta 测试,包含基本插件管理器

OBS Studio 32.0 进入公开测试,支持 Linux、macOS 和 Windows,新增语音活动检测、混合 MOV 支持和插件管理器,改进音频处理,修复多个错误,并提供自动崩溃日志上传。请勿在生产环境中使用。

OBS Studio 32.0 进入公开 Beta 测试,包含基本插件管理器

实时互动网
实时互动网 · 2025-08-29T02:56:57Z
高效多功能的 2D 图形编辑器:满足艺术创作与动画制作的需求 | 开源日报 No.709

CDP8 是一款音频处理软件,支持多声道制作和波形处理,修复了多个 BUG,并提供跨平台工具。PixiEditor 是一款二维图形编辑器,支持多种格式导出和动画制作。notion-sdk-typescript-starter 是 Notion SDK 和 TypeScript 的模板,go-wallet-sdk 支持多链交易,Competitive-Programming-Library 提供编程指南。

高效多功能的 2D 图形编辑器:满足艺术创作与动画制作的需求 | 开源日报 No.709

开源服务指南
开源服务指南 · 2025-08-27T07:35:43Z
Dante 如何将 NBC 体育的音频和通讯愿景变成现实

NBC体育自2016年引入Dante音频技术,提升广播质量,确保高效可靠的音频处理,满足复杂赛事的需求,显著改善观众体验。

Dante 如何将 NBC 体育的音频和通讯愿景变成现实

实时互动网
实时互动网 · 2025-08-26T02:55:25Z
wavlm-large模型onnx和mnn版本的导出与使用

WavLM模型在音频处理中的优化包括简化推理过程、ONNX导出和MNN转换,有效解决了模型体积大和推理速度慢的问题。优化后,推理代码减少至60行,模型体积显著减小,便于在资源受限环境中部署。

wavlm-large模型onnx和mnn版本的导出与使用

Yunfeng's Simple Blog
Yunfeng's Simple Blog · 2025-08-23T08:43:20Z
2025嵌入式音视频入门技术栈

本文总结了嵌入式音视频学习路线,涵盖视频、流媒体和音频技术,包括编码解码、网络优化和音频处理等。强调掌握相关协议、算法及开源框架,以帮助学习者明确学习目标。

2025嵌入式音视频入门技术栈

实时互动网
实时互动网 · 2025-07-31T07:29:14Z
第692期:PyPI、踏板、Django URL模式及更多(2025年7月29日)

Maria Ashna分享了她作为首位PyPI支持专员的第一年经历,支持超过65万个项目和近百万用户。文章还介绍了多个Python库和工具,包括音频处理、数据基础设施和远程调试等。

第692期:PyPI、踏板、Django URL模式及更多(2025年7月29日)

PyCoder’s Weekly
PyCoder’s Weekly · 2025-07-29T19:30:00Z

本文介绍了使用musetalk模型实现数字人对话系统的过程,包括音频处理、模型推理和视频帧合成。重点在于音频特征与视频帧的同步,以确保数字人形象与语音内容匹配。通过多线程和队列管理,系统实现了高效的数据流处理,提升了用户体验。

livetalking数字人执行流程

李文举
李文举 · 2025-07-13T01:20:08Z
探索 FFmpeg Basics 音视频技术(16): 数字音频

本文介绍了FFmpeg在数字音频处理中的应用,包括音频格式、量化、采样、声音合成和音量调整等技术。FFmpeg支持多种音频格式,具备音频合成、混合和分析功能,适合音视频技术学习者。

探索 FFmpeg Basics 音视频技术(16): 数字音频

实时互动网
实时互动网 · 2025-07-03T03:06:21Z

PaddleSpeech是基于飞桨的开源语音项目,最新发布的1.5.0版本适配飞桨3.0,新增DAC模型支持和AudioTools模块,优化了音频处理功能和损失函数,提高了模型的准确性和易用性。

重磅更新!PaddleSpeech r1.5.0 整体适配飞桨框架3.0,新增大模型音频编码器DAC组件

百度大脑
百度大脑 · 2025-06-23T12:33:29Z
WebRTC回音消除AECM的实现原理总结

本文总结了WebRTC音频处理模块APM中的回音消除解决方案AECM,适用于低算力设备。AECM通过时域子带处理、简化自适应滤波和非线性抑制实现回音消除,主要包括信号分带、回声延迟估计和NLMS滤波器等模块,动态调整参数以提升消除效果。

WebRTC回音消除AECM的实现原理总结

实时互动网
实时互动网 · 2025-06-19T03:03:48Z
WebRTC音频处理模块(APM)简介

本文总结了WebRTC音频处理模块APM的框架与流程。许多低成本IPC摄像头SOC内置音频编解码器,虽然设计简化但功能有限。部分供应商利用WebRTC APM进行音频数字处理,开发者需掌握APM模块以优化音频效果。音频处理流程包括采集、预处理、滤波和回音消除等。

WebRTC音频处理模块(APM)简介

实时互动网
实时互动网 · 2025-05-30T06:10:38Z
浏览器如何处理音频流:MediaRecorder 与 Web Audio API

现代浏览器通过 MediaRecorder API 和 Web Audio API 实现音频处理。MediaRecorder API 用于录制音频流并保存为文件,而 Web Audio API 则用于实时处理和合成音频,适用于不同的音频开发需求。

浏览器如何处理音频流:MediaRecorder 与 Web Audio API

实时互动网
实时互动网 · 2025-05-12T03:58:42Z
低延迟音频处理的音频工作单元

音频工作单元(Audio Worklets)为网页音频处理提供了低延迟的新方法。与传统的ScriptProcessorNode相比,Audio Worklets允许在专用线程中创建音频处理模块,降低延迟并提高灵活性。通过JavaScript编写的处理器可实现复杂音频效果,广泛应用于音乐制作、游戏开发和现场表演。

低延迟音频处理的音频工作单元

DEV Community
DEV Community · 2025-05-03T07:59:50Z
【Rust日报】2025-04-30 24 比特有符号整数

i24库提供24位有符号整数,适用于音频处理和嵌入式系统,具备高效转换和溢出检查功能。chalk-plus是Rust的终端文本样式库,支持多种颜色和样式,使用简便。

【Rust日报】2025-04-30 24 比特有符号整数

Rust.cc
Rust.cc · 2025-04-30T02:45:59Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码