小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
云知声 U2-ASR 2.5上线:覆盖七大方言体系,支持100种以上方言及地方口音识别转写

云知声推出的U2-ASR 2.5方言语音识别模型支持100种以上方言,识别准确率超过90%。该模型通过优化数据处理、解码和语义理解,将方言转化为规范普通话,广泛应用于政务、医疗和客服等领域。

云知声 U2-ASR 2.5上线:覆盖七大方言体系,支持100种以上方言及地方口音识别转写

实时互动网
实时互动网 · 2026-05-13T03:24:32Z
Krisp推出客户口音转换技术,帮助呼叫中心降低客服人员的认知负荷

Krisp推出实时客户侧口音转换功能,旨在提升客服人员对不同口音的理解,减轻认知负担,改善客户体验。该技术无需配置,实时调整音频,确保沟通清晰,减少处理时间和重复工作,提升双方满意度。

Krisp推出客户口音转换技术,帮助呼叫中心降低客服人员的认知负荷

实时互动网
实时互动网 · 2026-03-18T03:16:59Z
大型语言模型是否有英语口音?评估和改善多语言大型语言模型的自然性

当前大型语言模型主要以英语为主,导致多语言输出不自然。本文提出新的自动化语料库评估指标,评估多语言环境下LLM输出的自然性,并在法语和中文中进行测试,发现英语影响的模式。为改善这一问题,提出了一种简单有效的对齐方法,提升目标语言的自然性,同时不影响通用基准的表现。

大型语言模型是否有英语口音?评估和改善多语言大型语言模型的自然性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-16T00:00:00Z
这家公司正在利用AI帮助人们获得美式口音

Krisp推出了一款AI工具,能够实时将说话者的口音转换为美式英语,适用于Zoom等视频会议,延迟仅200毫秒,支持17种印度方言,未来将增加其他英语口音。免费用户每天可使用60分钟,商业计划为每月15美元。

这家公司正在利用AI帮助人们获得美式口音

The Verge
The Verge · 2025-03-26T15:20:29Z
拥抱你的声音

许多人对口音感到不安,但口音实际上可以成为优势。非母语者通常更注重表达的清晰度,从而更有效地沟通。关键在于清晰表达,而非模仿母语者。

拥抱你的声音

DEV Community
DEV Community · 2024-11-06T20:00:03Z

该研究探讨了大型语言模型(LLMs)的多语言能力及其局限性,分析了不同语言的表现,提出了改进建议,并探讨了未来研究方向。

大型语言模型是否有英语口音?评估和改善多语言LLM的自然性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本文介绍了多种语音合成和转换技术的进展,包括RTI-VAE方法、无监督文本到语音框架、声学表征学习和口音控制方案。这些技术通过改进模型架构和训练策略,显著提升了语音合成的质量和可理解性,尤其在多说话人和多语言环境中表现突出。

DART:多语者文本到语音中的口音和说话者表征的分解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

该研究探讨了自动语音识别(ASR)系统在不同口音上的普适性,提出了新学习机制和算法以提高识别准确性。研究表明,跨语言知识转移和无监督文本到语音合成能显著降低错误率。此外,MSR-86K语料库的发布将推动多语言ASR研究的发展。

自动重音标注和俄语文本转录的算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z
大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

2024 火山引擎 AI 创新巡展上海站展示了豆包大模型在综合评分、语音识别等方面的效果提升,并发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR 提供了语音识别能力支持,能准确转录各种语音信号,识别不同语言、方言、口音。豆包 APP 月活用户数已达 2752 万。火山引擎整合了云服务的实时音视频技术,使 AI 语音交互能像人类说话一样打断和插话。Seed-ASR 已在豆包 APP 中应用,并在语音交互、内容审核、会议访谈转写、音视频字幕等场景有落地。

大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

机器之心
机器之心 · 2024-08-22T10:25:00Z

本文首次大规模研究梵语自动语音识别(ASR),发布了78小时的数据集,探讨声学和语言模型单元的影响。研究还涉及印度英语口音的ASR系统,创建了包含12种语言的Shrutilipi数据集,以提升模型准确性。此外,提出了Vistaar基准和Svarah测试数据集,评估印度口音的ASR表现,并发布了支持22种语言的INDICVOICES数据集。所有数据和工具将公开。

LAHAJA:评估印地语自动语音识别系统的多口音基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文研究了口音转换技术,采用对抗学习和语音合成方法,旨在保留说话者身份并实现多种口音转换。通过无监督学习和少样本策略,提升了语音识别系统的性能,实验结果表明,合成的带有口音的语音数据有效改善了识别准确率。

转换与发声:最小监督下的零样本口音转换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

该研究探讨了自动语音识别(ASR)系统在不同口音上的普适性,提出了无监督学习、微调技术和声学知识等方法以提高识别准确性和鲁棒性。研究表明,合成口音数据和个性化模型训练能显著提升对非标准语音的识别效果,尤其在不同口音情境下表现优异。

聚类和挖掘重音语音以实现包容和公正的语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z
观看ChatGPT的新语音模式模仿口音和纠正发音

OpenAI推出了ChatGPT的新语音模式,用户可以体验其唱歌、模仿口音和纠正发音的功能。该模式支持多种语言,能够讲故事并模拟航空公司飞行员的声音。预计该功能将在秋季向所有ChatGPT Plus订阅用户开放。

观看ChatGPT的新语音模式模仿口音和纠正发音

The Verge
The Verge · 2024-08-01T10:13:56Z

本文研究了方言对英语语音识别的影响,提出了基于模型对抗元学习的跨方言识别、语音转换技术和多任务学习模型等改进方法。这些方法显著提高了口音识别的准确性和语音合成质量,尤其在低资源区域的应用中表现优异。

基于 GSLM 的外语口音模拟的初步研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文介绍了一种支持流式多语言的端到端自动语音识别模型,采用新颖的编码和解码架构,显著降低语音识别误差率,实现低延迟和高质量效果。同时,研究探讨了多语言模型的动态切换能力及方言对发音的影响,提出了有效的跨方言语音识别方法。

Qifusion-Net: 面向端到端的多口音语音识别的层自适应流 / 非流模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本研究聚焦于低资源非洲语言的语音合成,建立了数据集和TTS系统,发现仅需25分钟的录音即可生成可懂的语音。研究还探讨了种族表示的挑战,并发布了AfriSpeech数据集,以支持非洲语言的语音识别。通过多语言模型和自监督学习,构建了一个能够生成7000种语言语音的TTS系统,旨在帮助语言资源有限的社区。

1000 名非洲人的声音:推进包容性多说话者多口音语音合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

提出了一种利用多级变分自编码器与对抗学习的文本转语音模型,用于解决语音合成和转换中的口音问题,以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估,结果表明与基线相比,口音转换能力有所提高。

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

提出了 AccentFold 方法,通过利用学习到的口音嵌入之间的空间关系来提高自动语音识别(ASR)的性能,特别是在非洲口音的背景下。发现了 100 多种非洲口音之间的空间关系,强调了地理和谱系的相似性以及从语音中学到的一致的语音和形态学规律。通过实证评估,证明了 AccentFold 的有效性,对于未知分布的口音,基于 AccentFold...

AccentFold:零点自适应目标口音的非洲口音之无

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-02T00:00:00Z
Pi 你的个人聊天 AI。不,你的私人英语听力老师

Pi是一款基于AI的聊天工具,可以用英文母语者的口音与你聊天,引导你持续聊天,完全不尬聊。无需注册,用机器翻译即可聊天。

Pi 你的个人聊天 AI。不,你的私人英语听力老师

小众软件
小众软件 · 2023-05-14T07:36:44Z

OpenAI今天推出了Whisper API,一种可以将语音转换为文本的API接口,它可以捕捉日常口音的细微差别,支持98种不同的语言,价格比达芬奇003模型便宜,首个搭载Whisper API的应用程序是Speak。

OPENAI推出语音转文本API接口 支持超多语言价格仅4分钱/分钟

蓝点网
蓝点网 · 2023-03-02T03:18:21Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码