小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了Transformer模型在多说话者语音识别中的应用,实验结果显示其相对错误率显著降低。同时,提出了音频-视觉声音分离方案和基于多通道的ASR系统,均取得良好效果。研究还涉及语音分离模型的可转移性及其在低资源环境下的应用,展示了新架构在实时任务中的优势。

Papez: 基于听觉工作记忆的资源高效语音分离

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

该文章介绍了一种名为TokenSplit的语音分离模型,可在离散标记序列上操作。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。作者还介绍了模型的“修正”版本,证明了该模型在分离方面具有优秀的性能,并提供了语音合成的音频样本来展示该模型的附加效用。

解码器专用变压器的离散令牌 ASR 无需损失遮蔽

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

该文介绍了一种新的语音分离模型——时域conformers(TD-Conformers),它是一种类似于双路径(DP)网络的方法,可以顺序处理本地和全局上下文,但时间复杂性函数不同。该模型在现实中较短的信号长度下更有效,提出了子采样层以进一步提高计算效率。

DPATD: 双阶段音频变压器降噪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码