小红花·文摘

音调重音检测提升了预训练自动语音识别的性能

Apple Machine Learning Research ·

如何使用Web音频API在浏览器中生成和控制声音

DEV Community ·

本研究提出了一种新颖的ProsodyFM模型，旨在改善语音合成在短语和音调方面的不足。该模型通过短语断点和终端音调编码器，提高了语音的可懂性和对复杂句子的适应能力。

ProsodyFM: Unsupervised Phrase and Pitch Control for Enhanced Understandability in Speech Synthesis

BriefGPT - AI 论文速递 ·

本研究针对现有语音实地工作中手动操作造成的时间和财务成本的挑战，提出了基于音高的音调相似性表征方法Tone2Vec。通过Tone2Vec，研究开发了首个自动化的音调转录与聚类方法，并将其整合为一个易用的开源包ToneLab，显著提升了对音调语言的实地考察和跨区域分析的效率。

自动音调转录与聚类：Tone2Vec

BriefGPT - AI 论文速递 ·

本研究探讨了语言中单词独特性、声调和语音节奏的影响，强调声调在上海方言中的重要性，并通过数据驱动模型研究元音和谐及音调编码能力，揭示了词义对声调实现的影响。

基于语料库的对话台湾普通话单音节词音调轮廓的研究

BriefGPT - AI 论文速递 ·

本文研究了多种文本到语音（TTS）模型的改进方法，包括引入BERT模型以提高语音合成质量，采用多语言合成技术实现跨语言语音转移，以及利用无监督学习增强口音识别。实验结果表明，这些方法在低资源环境下有效提升了语音合成的自然度和准确性。

跨方言语音合成中的音调重音语言结合多方言音素级BERT

BriefGPT - AI 论文速递 ·

我们是否对电动车的声音想得太复杂了？

The Verge ·

音频开发中常用的概念包括音调、音色、响度、采样率、采样精度和声道数。声音可以转换为正弦波表示，音调和响度由基波决定，音色由谐波决定。数字音频需要关注采样率、采样精度和声道数。音频数据可以进行无损压缩和有损压缩，常见的压缩算法有FLAC、ALAC、APE和MP3。AAC是MP3的升级版，具有更好的采样率、采样精度和声道数。

移动开发中关于音频的基本概念

六虎 ·

本文介绍了使用JavaScript实现音频倍速合成的方法，包括解决变速后音调变化的问题和改进的算法实现。作者提供了两个项目链接，分别是timestretch和OLA-TS.js，后者效果更好。文章还提到了其他与音频时间速率和音调相关的项目，并表示将在下篇文章中继续讨论。

不改变音调情况下Audio音频的倍速合成JS实现

张鑫旭-鑫空间-鑫生活 ·

研究人员提出了两种新的TTS方法：Diff-LM-Speech和Tetra-Diff-Speech。Diff-LM-Speech使用mel-spectrogram和提示编码结构提高语义表示能力，Tetra-Diff-Speech通过持续时间扩散模型实现多样化的韵律表达。实验结果显示这些方法优于基准方法。

一种音调感知的循环连接模型：基于 TRACX2 的探索

BriefGPT - AI 论文速递 ·

谷歌将在Chrome Canary版中添加新图标，将地址栏的HTTPS锁标志换成音调图标，以显示更多信息。这些新图标将在2023年9月发布的Chrome 117版中推出。

解决历史遗留：谷歌发布博客解释为何要将Chrome HTTPS锁换成音调图标

蓝点网 ·