小红花·文摘

SuperX AI与STT GDC在新加坡正式启用AI创新中心，旨在加速企业的AI布局。该中心位于STT Singapore 5数据中心，现已向企业和高等院校开放，提供14天免费试用。

SuperX AI与STT GDC正式在新加坡启用AI创新中心

全球TMT-美通国际 ·

从零开始构建自己的语音聊天机器人——PocketFlow教程！

DEV Community ·

消除TTS到STT的反馈

DEV Community ·

本文介绍了如何在网页中集成语音识别（STT）功能，通过使用MediaRecorder完成录音并提供相关代码。下一篇文章将介绍如何使用大模型API进行文字转换。

【实用教程】在网页里集成语音输入：1. 在浏览器里完成录音

山维空间 ·

Whisper-Streaming 是一种基于 Whisper 的实时语音转录和翻译模型，具有 3.3 秒的低延迟。研究提出了 DistilWhisper 方法，通过轻量级微调提升 ASR 性能，并分析了 Whisper 输出，展示了不同训练策略对模型性能的影响，探讨了其在儿童语音上的适应性。所有研究成果和代码已公开。

Whispy：将 STT Whisper 模型调整至实时环境

BriefGPT - AI 论文速递 ·

随着技术的发展，TTS和STT服务已经非常完善。TTS服务可以将文本转换为语音，但中文的语义分析是一个挑战。STT服务可以将语音转换为文字，但需要结合分词器来理解用户的意图。离线版本的TTS和STT服务在业务中被广泛使用。

这是一个离线运行的本地语音识别转文字工具，基于fast-whisper开源模型。可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。准确率基本等同openai官方api接口。需要安装CUDA和NVIDIA Container Toolkit。使用docker安装运行。下载模型文件并运行stt。可使用wav或mp3文件进行测试。转换结果准确率大概90%左右。项目地址：https://github.com/jianchang512/stt。

开源初探 - stt

dotNET跨平台 ·