小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过将语音编码为与说话者无关的离散语义标记,解决了口语术语检测中对帧级特征的依赖和动态时间规整模板匹配的计算密集性问题。实验结果表明,该方法在LibriSpeech和TIMIT数据集上优于现有基线,并且效率更高。

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

该论文分析了TIMIT语音识别任务中原始波形声学模型的错误模式,并超越了传统的音素错误率指标。研究者将音素分为三组,计算了每个广义音素类别的音素错误率,并与Filterbank和Wav2vec 2.0系统的混淆模式进行了比较。他们的原始波形声学模型在TIMIT开发/测试集上实现了13.7%/15.2%的音素错误率,超过了文献中报告的原始波形模型的音素错误率。此外,他们还研究了从WSJ进行的迁移学习对音素错误模式和混淆矩阵的影响,将音素错误率降低到了11.8%/13.7%。

基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-02T00:00:00Z

本研究使用深度学习技术在TIMIT数据集上进行了四个说话人特征分析任务的探索,发现多任务学习与单任务模型之间存在潜力和挑战。研究强调了技巧性特征工程在说话人识别任务中的重要性,并发现口音分类方面存在挑战。此外,非顺序特征在说话人识别中受到偏好,顺序特征可作为复杂模型的起点。该研究强调了对深度学习模型的细致实验和参数调整的必要性。

TIMIT 说话人特征分析:多任务学习与单任务学习方法的比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码