小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何在自己的硬件上使用QVAC实现私有文本转语音

本文介绍了如何使用QVAC SDK在移动设备上实现离线文本转语音(TTS)功能。由于云服务成本高和延迟问题,作者开发了本地解决方案。QVAC允许在设备上直接运行AI模型,避免对外部API的依赖。文章详细阐述了项目设置、模型加载、音频处理及用户界面实现,强调了本地生成语音的隐私和成本优势。

如何在自己的硬件上使用QVAC实现私有文本转语音

freeCodeCamp.org
freeCodeCamp.org · 2026-06-14T02:06:42Z
苹果发布会视频,说到 Siri 这个词时会对音频做处理,防止唤醒观众们的 Siri

苹果在发布会视频中,为防止意外激活Siri,切掉音频中3k、4k、5k、6kHz频率部分,体现了对细节的关注。

苹果发布会视频,说到 Siri 这个词时会对音频做处理,防止唤醒观众们的 Siri

苹果fans博客
苹果fans博客 · 2026-06-12T16:45:25Z
什么才是「好」的 Android 音频输出?从一台旧日 Xperia 说起

文章探讨了Android设备音频质量的演变,指出尽管Android具备高保真音频输出能力,但许多厂商仍通过MIXER处理音频,导致音质下降。以Sony Xperia XZ Premium为例,分析不同音频输出模式的效果,强调高保真音频的重要性,并质疑厂商在音频处理上的选择是否真正提升了用户体验。

什么才是「好」的 Android 音频输出?从一台旧日 Xperia 说起

少数派
少数派 · 2026-05-29T02:57:32Z

speakrs 是一个用 Rust 实现的高速说话人分离工具,实时性能高达 529x,适合音频处理和会议转录。BoquilaHUB v0.5 更新了音频能力和 GUI 体验,增强了实时源功能。rproc 是 Linux 资源监控工具,提供直观的系统监控体验。Theta 是命令行工具,用于管理 AI Agent 配置,支持多平台,便于团队协作。

【Rust日报】2026-05-27 speakrs - 快速 Rust 说话人分离工具

Rust.cc
Rust.cc · 2026-05-27T01:08:20Z
PipeWire 1.6.5 为 Pulse 服务器带来额外的安全检查和加固修复

PipeWire 1.6.5 最近发布,作为 1.6 系列的维护更新,增强了安全性,修复了 ALSA 日志崩溃等问题,改进了 ROC 接收器功能,修复了内存泄漏,并恢复了部分静音补丁。此外,该版本解决了 MIDI 缓冲区问题,提升了音频处理性能。

PipeWire 1.6.5 为 Pulse 服务器带来额外的安全检查和加固修复

实时互动网
实时互动网 · 2026-05-15T03:51:36Z
最简单粗暴的让 Claude Code 理解视频|Claude Code Video Vision

开发者创建了Claude Code插件,使其能够理解视频和音频。通过ffmpeg提取视频帧,并使用后端模型处理音频,Claude Code可以分析视频内容并自动调整参数。这种方法简单有效。

最简单粗暴的让 Claude Code 理解视频|Claude Code Video Vision

小众软件
小众软件 · 2026-05-07T09:26:44Z
QuRT:您手机处理器内的实时操作系统[完整手册]

本文介绍了高通的实时操作系统QuRT,专为Hexagon数字信号处理器设计。QuRT支持多线程、内存管理、定时器和中断处理,适用于音频处理和传感器融合等延迟敏感任务。文章详细讲解了线程创建、同步原语、内存管理和调试技巧,并提供示例代码。QuRT的优先级调度确保高优先级线程优先执行,适合实时应用。开发者可通过Hexagon SDK进行环境搭建和应用开发。

QuRT:您手机处理器内的实时操作系统[完整手册]

freeCodeCamp.org
freeCodeCamp.org · 2026-05-06T23:12:45Z
以数据为中心的教训:改进语音语言预训练

本文探讨了通过数据中心方法改进语音语言模型(SpeechLMs)预训练的策略,重点关注处理原始音频、构建合成数据集和文本与音频交错训练。研究表明,经过有效数据整理的3.8B参数模型SpeLangy在性能上超越了更大模型10.2%。这些发现为未来的语音语言模型数据探索提供了指导。

以数据为中心的教训:改进语音语言预训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z
美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团LongCat团队开源了LongCat-Audio-Codec,解决了语音大语言模型在Token化中的难题。该方案通过双Token并行提取、低延迟解码和超低比特率高保真设计,实现了高效音频处理,提升了语音理解与生成质量,降低了技术门槛,丰富了应用场景,推动了语音智能系统的发展。

美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团技术团队
美团技术团队 · 2025-11-14T00:00:00Z

随着视频创作的普及,无线麦克风成为热门工具。DJI Mic 3注重隐形佩戴和集成设计,适合智能化音频处理;而LARK MAX 2则强调轻量化和模块化,追求原声效果。用户可根据需求和创作风格选择合适的麦克风。

购物节想入手无线麦克风?我们来聊聊其中可能最受关注的两款

少数派
少数派 · 2025-11-03T07:05:42Z
Final Cut Pro 音频降噪、人声增强插件,优化视频中的人声表现

FxFactory 的 AudioDenoise AI 插件可智能降噪,保持人声清晰,用户可调节降噪强度和频段,适用于多种场景。

Final Cut Pro 音频降噪、人声增强插件,优化视频中的人声表现

张洪Heo
张洪Heo · 2025-10-24T09:53:45Z
Lawo 与音频插件公司 Waves Audio 合作,在沉浸式音频领域掀起波澜

Lawo与Waves Audio合作,将沉浸式音频处理工具引入mc²调音台,推出的新插件Immersive Wrapper可将单声道插件转换为多通道处理器,兼容现有调音台,提升音频创作自由度。

Lawo 与音频插件公司 Waves Audio 合作,在沉浸式音频领域掀起波澜

实时互动网
实时互动网 · 2025-09-19T02:38:57Z
Tonverk是Elektron的新款多音采样器和节奏盒

Elektron推出了新款多音采样器Tonverk,具备强大的音频处理功能和八轨多音采样能力,适合实验音乐制作,价格为1599美元,受到热烈追捧。

Tonverk是Elektron的新款多音采样器和节奏盒

The Verge
The Verge · 2025-09-11T16:36:45Z
OBS Studio 32.0 进入公开 Beta 测试,包含基本插件管理器

OBS Studio 32.0 进入公开测试,支持 Linux、macOS 和 Windows,新增语音活动检测、混合 MOV 支持和插件管理器,改进音频处理,修复多个错误,并提供自动崩溃日志上传。请勿在生产环境中使用。

OBS Studio 32.0 进入公开 Beta 测试,包含基本插件管理器

实时互动网
实时互动网 · 2025-08-29T02:56:57Z
高效多功能的 2D 图形编辑器:满足艺术创作与动画制作的需求 | 开源日报 No.709

CDP8 是一款音频处理软件,支持多声道制作和波形处理,修复了多个 BUG,并提供跨平台工具。PixiEditor 是一款二维图形编辑器,支持多种格式导出和动画制作。notion-sdk-typescript-starter 是 Notion SDK 和 TypeScript 的模板,go-wallet-sdk 支持多链交易,Competitive-Programming-Library 提供编程指南。

高效多功能的 2D 图形编辑器:满足艺术创作与动画制作的需求 | 开源日报 No.709

开源服务指南
开源服务指南 · 2025-08-27T07:35:43Z
Dante 如何将 NBC 体育的音频和通讯愿景变成现实

NBC体育自2016年引入Dante音频技术,提升广播质量,确保高效可靠的音频处理,满足复杂赛事的需求,显著改善观众体验。

Dante 如何将 NBC 体育的音频和通讯愿景变成现实

实时互动网
实时互动网 · 2025-08-26T02:55:25Z
wavlm-large模型onnx和mnn版本的导出与使用

WavLM模型在音频处理中的优化包括简化推理过程、ONNX导出和MNN转换,有效解决了模型体积大和推理速度慢的问题。优化后,推理代码减少至60行,模型体积显著减小,便于在资源受限环境中部署。

wavlm-large模型onnx和mnn版本的导出与使用

Yunfeng's Simple Blog
Yunfeng's Simple Blog · 2025-08-23T08:43:20Z
2025嵌入式音视频入门技术栈

本文总结了嵌入式音视频学习路线,涵盖视频、流媒体和音频技术,包括编码解码、网络优化和音频处理等。强调掌握相关协议、算法及开源框架,以帮助学习者明确学习目标。

2025嵌入式音视频入门技术栈

实时互动网
实时互动网 · 2025-07-31T07:29:14Z
第692期:PyPI、踏板、Django URL模式及更多(2025年7月29日)

Maria Ashna分享了她作为首位PyPI支持专员的第一年经历,支持超过65万个项目和近百万用户。文章还介绍了多个Python库和工具,包括音频处理、数据基础设施和远程调试等。

第692期:PyPI、踏板、Django URL模式及更多(2025年7月29日)

PyCoder’s Weekly
PyCoder’s Weekly · 2025-07-29T19:30:00Z

本文介绍了使用musetalk模型实现数字人对话系统的过程,包括音频处理、模型推理和视频帧合成。重点在于音频特征与视频帧的同步,以确保数字人形象与语音内容匹配。通过多线程和队列管理,系统实现了高效的数据流处理,提升了用户体验。

livetalking数字人执行流程

李文举
李文举 · 2025-07-13T01:20:08Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码