小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

speakrs 是一个用 Rust 实现的高速说话人分离工具,实时性能高达 529x,适合音频处理和会议转录。BoquilaHUB v0.5 更新了音频能力和 GUI 体验,增强了实时源功能。rproc 是 Linux 资源监控工具,提供直观的系统监控体验。Theta 是命令行工具,用于管理 AI Agent 配置,支持多平台,便于团队协作。

【Rust日报】2026-05-27 speakrs - 快速 Rust 说话人分离工具

Rust.cc
Rust.cc · 2026-05-27T01:08:20Z
三个文档打造会说话智能体:SOUL USER AGENTS提示词精髓

文章讨论了如何通过三个文档(SOUL.md、USER.md、AGENTS.md)创建更具人性化的智能体。SOUL.md定义智能体的语气和价值观,USER.md记录用户的深度画像,AGENTS.md规定运行规则。这种方法使智能体更具生命力,能够更好地理解和服务用户。

三个文档打造会说话智能体:SOUL USER AGENTS提示词精髓

极道
极道 · 2026-04-27T09:04:00Z
Mango AI推出AI宝宝播客生成器,可将宝宝照片转换成对口型说话的视频

Mango AI推出了一款AI婴儿播客生成器,用户只需上传婴儿照片和音频,即可生成自然生动的婴儿说话视频。该工具操作简单,适合社交媒体创作者、营销人员和家庭使用,广泛应用于品牌推广和个性化信息制作。此外,Mango AI还提供专注于单人说话视频的AI婴儿说话工具,具有逼真的微表情。

Mango AI推出AI宝宝播客生成器,可将宝宝照片转换成对口型说话的视频

实时互动网
实时互动网 · 2026-04-27T03:42:38Z
VibeVoice-1.5B:微软开源文本转语音模型,可合成四个不同说话者长达 90 分钟的语音

微软的VibeVoice-1.5B是开源文本转语音技术的重大进展,支持长达90分钟的多说话人音频生成,具备跨语言和歌唱合成能力,采用流式架构,强调情感表现,适合播客和对话场景。

VibeVoice-1.5B:微软开源文本转语音模型,可合成四个不同说话者长达 90 分钟的语音

实时互动网
实时互动网 · 2025-08-26T07:05:45Z

本文介绍了JoyGen框架,该框架通过130小时中文视频数据集解决了音频与唇部动作的同步及视觉质量问题,推动了AIGC领域的发展。

JoyGen:音频生成逼真的3D说话人脸视频

京东科技开发者
京东科技开发者 · 2025-07-02T06:26:48Z
Verbit 推出用于 ASR 直播字幕的说话人识别技术

AI语音转录平台Verbit更新了Captivate ASR解决方案,能够识别自动字幕中的特定发言者特征,从而提供清晰的说话者字幕。该技术适用于新闻、天气和体育直播,提升实时字幕的准确性和清晰度。

Verbit 推出用于 ASR 直播字幕的说话人识别技术

实时互动网
实时互动网 · 2025-06-16T02:38:47Z

本文针对数字人类技术领域中音频驱动说话人脸视频生成的挑战,提出了一种联合不确定性学习网络(JULNet)。该方法通过引入与视觉误差相关的不确定性表示,同时优化误差和不确定性,大幅提升了生成视频的视觉质量和音频唇形同步效果,显示出比以往方法更高的保真度和鲁棒性。

基于音频驱动的说话人脸视频生成与联合不确定性学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-26T00:00:00Z
基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

自发语音情感数据通常包含感知评分,因评分者意见差异而引入标签不确定性。我们提出使用情感评分的概率密度函数作为目标,替代常用的共识评分,从而在基准评估集上取得更好表现。此外,我们探讨了基于显著性驱动的基础模型选择,以训练多任务语音情感模型,并在情感识别上展示了最先进的性能。

基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-02T00:00:00Z
说话人IPL:基于i-vector的伪标签无监督学习说话人特征

迭代自训练(IPL)通过改进模型生成伪标签,提升说话人表示质量。研究表明,简单的i-vector生成模型足以启动IPL过程,尽管初始模型较弱,但仍能达到与最先进方法相媲美的说话人验证性能。

说话人IPL:基于i-vector的伪标签无监督学习说话人特征

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-05T00:00:00Z

本研究解决了在多说话人环境中提取特定说话人声音的难题,尤其是当缺乏干净音频样本时。通过对比目标说话人说话的音频片段(正录音)与未说话的片段(负录音),提出了一种新方法,实验结果表明该方法在现实场景中具有优越的性能,展现了良好的普适性。

通过比较有噪声的正负音频录音进行目标说话人提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-23T00:00:00Z

本文提出了一种多麦克风技术,用于在混合多说话人和方向性噪声的混响环境中提取目标说话者。实验结果表明,瞬时相对传递函数(RTF)方法优于传统的到达方向(DOA)和频谱嵌入方法。

基于相对传递函数的端到端多麦克风说话人提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究解决了语音翻译系统中存在的说话者性别偏见问题,该偏见会导致翻译不准确和冒犯性表达。我们提出了一种创新方法,通过大型语言模型纠正翻译并根据说话者的性别微调语音翻译模型,实现更为准确的性别特定翻译。我们的工作在妇女的翻译准确率上相比基准提升了70%。

解决大规模语音翻译系统中的说话者性别偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-10T00:00:00Z

本文针对当前说话人验证系统缺乏可解释性的问题,提出了一种新颖的可解释性语音特征导向网络(ExPO),该网络通过引入说话人的语音特征实现说话人特征的详细分析与可视化。这一方法在说话人验证中不仅提高了解释性,还深入探讨了语音特征的单说话人和跨说话人变异性,标志着可解释性说话人验证的一个重要进展。

可解释的语音特征导向网络用于说话人验证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-10T00:00:00Z

本研究针对当前说话人自适应文本到语音(TTS)合成方法在目标语音样本数量和质量上存在的高敏感性问题,提出了一个名为Stable-TTS的新框架。该框架通过利用高质量的预训练数据集中少量样本的韵律一致性,有效捕捉目标说话人的音色,显著提升了合成能力,尤其在样本稀缺与噪音较多的情况下表现出色。

稳定的TTS:通过韵律提示实现稳定的说话人自适应文本到语音合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-28T00:00:00Z

本研究解决了在自动说话者验证和语音匿名化任务中,语音时间动态对隐私保护的影响。提出了基于音素时长的自动说话者验证度量方法,实验结果显示,音素时长会泄漏说话者信息,可能暴露说话者身份。本研究强调了考虑说话者语速和音素时长特征的重要性,并指出在开发具有强隐私保护能力的匿名化系统时,需对其进行调整。

说话者验证与语音匿名化背景下的语音时间动态分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本文提出了一种新的语音转换模型,能够有效地转换说话和唱歌的声音,解决情感传递、发音和口音变化等挑战。该模型在混合语音样本上进行口音转换,保留原始内容和韵律,展现出在配音和文本到语音等应用中的潜力。

A Unified Model for Voice and Accent Conversion in Speech and Singing Using Self-Supervised Learning and Feature Extraction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z

本研究解决了一次性语音转换在实际应用中受到背景噪声干扰的问题,提出了抗噪声一次性语音转换系统Noro。该系统通过双分支参考编码模块和与噪声无关的对比说话者损失,显著提高了在干扰情况下一次性语音转换的效果,同时探讨了其在说话者表征学习上的潜力,展示了与先进的自监督学习模型竞争的能力。

诺罗:具备隐藏说话者表征能力的抗噪声一次性语音转换系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-29T00:00:00Z

本文探讨了利用单一声学模型进行多语言训练,以提升低资源语言的自动语音识别(ASR)性能。研究表明,多语言训练的ASR模型在51种语言上优于单语言训练,尤其在低资源语言方面。提出的多种模型和方法,如METHODNS和MC-SA-ASR,显著提高了多语言和低资源语音识别的效果。此外,研究介绍了MSR-86K语料库,为多语言ASR研究提供了新的数据支持。

MSA-ASR:利用冻结的ASR模型进行高效多语种说话人归属

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本文介绍了多种目标说话人提取算法的研究进展,包括SpeakerBeam、DiffSpEx和LLM-TSE等。研究表明,结合时间域、空间特征和说话人嵌入的方法显著提高了提取效果,尤其在WSJ0-2mix数据集上表现优异,推动了语音分离和识别技术的发展。

基于离散令牌和语言模型的目标说话人提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

本研究提出了Sortformer神经模型,用于解决说话人分离中的排列问题。该模型采用了不同的训练目标,并引入了Sort Loss方法来改善排列解决能力。实验证明Sortformer在多说话人自动语音识别架构中表现出显著的性能提升。

Sortformer:通过时间戳与标记的桥接实现说话人分离与自动语音识别的无缝整合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码