Krisp推出实时客户侧口音转换功能,旨在提升客服人员对不同口音的理解,减轻认知负担,改善客户体验。该技术无需配置,实时调整音频,确保沟通清晰,减少处理时间和重复工作,提升双方满意度。
当前大型语言模型主要以英语为主,导致多语言输出不自然。本文提出新的自动化语料库评估指标,评估多语言环境下LLM输出的自然性,并在法语和中文中进行测试,发现英语影响的模式。为改善这一问题,提出了一种简单有效的对齐方法,提升目标语言的自然性,同时不影响通用基准的表现。
Krisp推出了一款AI工具,能够实时将说话者的口音转换为美式英语,适用于Zoom等视频会议,延迟仅200毫秒,支持17种印度方言,未来将增加其他英语口音。免费用户每天可使用60分钟,商业计划为每月15美元。
本文提出了一种新型语音转换模型,能够有效地转换说话和唱歌的声音,解决情感传递、发音和口音变化等问题。该模型在混合语音样本上进行口音转换,保留内容和韵律,展现出在配音、内容创造及TTS和IVR系统中的应用潜力。
许多人对口音感到不安,但口音实际上可以成为优势。非母语者通常更注重表达的清晰度,从而更有效地沟通。关键在于清晰表达,而非模仿母语者。
多语言大型语言模型在自然语言处理中受到关注。本文介绍其技术细节,包括架构、目标函数、预训练数据和分词方法,讨论了编码器、解码器和编码器-解码器模型的特点,并指出多语言模型的局限性及应对措施。
我们开发了MParrotTTS,一个支持多语言和多说话者的文字转语音模型。通过模块化的自我监督训练,该模型在最少数据下适应新语言,并保持说话者特征。实验显示,在六种语言中,MParrotTTS的语音流畅度和相似度优于现有模型,且仅需少量训练数据。
2024 火山引擎 AI 创新巡展上海站展示了豆包大模型在综合评分、语音识别等方面的效果提升,并发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR 提供了语音识别能力支持,能准确转录各种语音信号,识别不同语言、方言、口音。豆包 APP 月活用户数已达 2752 万。火山引擎整合了云服务的实时音视频技术,使 AI 语音交互能像人类说话一样打断和插话。Seed-ASR 已在豆包 APP 中应用,并在语音交互、内容审核、会议访谈转写、音视频字幕等场景有落地。
INDICVOICES数据集包含了来自16237名发言人的7348小时的语音数据,涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库,以及质量控制机制和转录指南。他们希望这个开源蓝图能成为其他多语言地区数据收集的指南。利用INDICVOICES,他们构建了IndicASR,这是第一个支持印度宪法第八版中列出的22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。
本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。实验结果显示,使用无监督语音合成生成的带有口音的语音数据进行微调可以显著降低相对字错误率6.1%。
本研究探讨了梅尔频谱图和梅尔频率倒谱系数在说话人识别中的重要性,并通过评估不同模型架构的性能验证了模型对口音和性别的准确性。研究还展示了深度学习在说话人识别中的潜在影响。
OpenAI的ChatGPT推出了新的高级语音模式,用户对其表现印象深刻。该功能可以演唱、模仿口音、纠正语言发音和讲故事。ChatGPT能够处理多种语言输入,但具体数量因方言和地区差异而异。它能够纠正法语发音,并能够用土耳其语讲故事。ChatGPT在美国地区口音方面表现不错,还可以唱歌和模仿动物的声音。
该研究提出了一种新颖的非自回归框架用于口音转换,通过学习口音无关的语言表示并使用它们来转换源语音中的口音,从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性,并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处,显著提高了音频质量和可理解性。
在大模型时代,解码的自回归特性导致延迟成为瓶颈。提出了非自回归LM融合ASR系统,利用并行化能力。在FLEURS和YouTube字幕上实现了相对WER的平均改进10.8%和3.6%。分析了LLM大小、上下文长度、词汇大小、融合方法等参数对ASR性能的影响。为大规模LM融合语音识别系统提供了有价值的见解。
本文讨论了开发以非洲裔美国女性为代表的英文文字转语音系统所面临的挑战,现有系统无法正确识别非洲裔美国人的声音,可能受到无能或偏见的影响。研究验证了非洲裔美国人的声音代表性,并指出教育水平高、非方言、专业化的声音与非洲裔美国人的关联。
提出了一种利用多级变分自编码器与对抗学习的文本转语音模型,用于解决语音合成和转换中的口音问题,以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估,结果表明与基线相比,口音转换能力有所提高。
提出了 AccentFold 方法,通过利用学习到的口音嵌入之间的空间关系来提高自动语音识别(ASR)的性能,特别是在非洲口音的背景下。发现了 100 多种非洲口音之间的空间关系,强调了地理和谱系的相似性以及从语音中学到的一致的语音和形态学规律。通过实证评估,证明了 AccentFold 的有效性,对于未知分布的口音,基于 AccentFold...
Pi是一款基于AI的聊天工具,可以用英文母语者的口音与你聊天,引导你持续聊天,完全不尬聊。无需注册,用机器翻译即可聊天。
OpenAI今天推出了Whisper API,一种可以将语音转换为文本的API接口,它可以捕捉日常口音的细微差别,支持98种不同的语言,价格比达芬奇003模型便宜,首个搭载Whisper API的应用程序是Speak。
完成下面两步后,将自动完成登录并继续当前操作。