小红花·文摘

我把做视频里最烦的那些活儿，拆成了十五个 skill

王建硕的博客 ·

云知声 U2-ASR 2.5上线：覆盖七大方言体系，支持100种以上方言及地方口音识别转写

实时互动网 ·

本文介绍了如何将.NET Core应用与科大讯飞语音转写服务对接，包括注册账号、获取APPID和API密钥、引入库、编写HTTP请求代码以及注意音频格式和API限制等事项，以帮助开发者实现语音转写功能。

.NET Core 对接科大讯飞语音转写：轻松实现语音变文字

dotNET跨平台 ·

Google Research推出的InkSight技术利用深度学习高效识别手写文字，克服传统OCR的局限，能够在复杂背景下实现精准转写，展现出在文献数字化和文化遗产保护中的应用潜力。

攻克OCR手写识别难点！InkSight教程上线，实现高精度转写；iNatSounds数据集发布，含23万自然物种音频

HyperAI超神经 ·

这篇论文介绍了 GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的 Noisy Student Training 来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于 Whisper large-v3 模型，基于...

GigaSpeech 2：用于低资源语种的演进、大规模、多领域的 ASR 语料库的自动爬取、转写和优化

BriefGPT - AI 论文速递 ·

本文探讨了TransliCo框架中转写对多语言预训练语言模型（mPLM）性能的影响。研究表明，转写显著提升了低资源语言的表现，并在多个基准测试中提高了跨语言表示的相似度。MTrans框架和MiLMo模型在处理少数民族语言和未知脚本时表现优异，解决了多语言模型在这些领域的不足。

TransMI: 创建多语言预训练语言模型的强基线框架，用于音译数据

BriefGPT - AI 论文速递 ·

本研究使用基于Transformer的序列到序列模型，仅使用850万个参数，在DataVerse Challenge - ITVerse 2023中以0.10582的字错误率获得第一名，实现了汉语中每个单词的国际音标。

使用 Transformer 架构和序列对齐进行字符级孟加拉文转音标转写

BriefGPT - AI 论文速递 ·

本文介绍了使用音视频转文字工具Whisper的经验，推荐了OpenAI的Whisper API和Memo AI作为最好用的Whisper客户端。文章还介绍了Whisper的Prompt的风格和优化处理，以及Whisper的不足和潜在问题。

精准转写：利用 Whisper 处理音视频转文字不完全指南

少数派 ·