小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Mistral AI 于 2 月 4 日发布了 Voxtral Transcribe 2 系列语音转文字模型,包括面向批量处理的 Voxtral Mini Transcribe V2 和实时转录的 Voxtral Realtime。Voxtral Realtime 具有低于 200 ms 的延迟,支持 13 种语言。定价方面,Mini Transcribe V2 每分钟 0.003 美元,Realtime 每分钟 0.006 美元。

派早报:Mistral 发布 Voxtral Transcribe 2 系列语音转文字模型等

少数派
少数派 · 2026-02-06T00:50:00Z
Five9 推出 Five9 Fusion for ServiceNow,提供统一的 AI 客户服务体验

Five9推出Five9 Fusion for ServiceNow,整合语音与数字交互,提升客户服务效率。该平台通过实时转录和智能路由,帮助客服人员快速解决问题,提供个性化体验,降低成本,增强可视性,旨在消除系统碎片化,提升服务质量。

Five9 推出 Five9 Fusion for ServiceNow,提供统一的 AI 客户服务体验

实时互动网
实时互动网 · 2025-09-18T02:23:32Z
英伟达开源语音识别模型,ParaKeet-tdt-0.6b-v2仅需1秒可转录1小时音频,精准识别劈柴哥演讲

英伟达开源的ParaKeet-tdt-0.6b-v2语音识别模型基于FastConformer架构,具备高效推理能力,能在1秒内处理60分钟音频,适合实时英语转录,提升会议记录流畅度。

英伟达开源语音识别模型,ParaKeet-tdt-0.6b-v2仅需1秒可转录1小时音频,精准识别劈柴哥演讲

HyperAI超神经
HyperAI超神经 · 2025-05-27T03:01:15Z
Asterisk 如何集成 OpenAI Realtime

Asterisk开源项目通过realtime接口与OpenAI实现低延迟通信,研究者利用API密钥和token开发了FreePBX插件,支持音频流式传输和实时文本转录。该项目使用WebSocket处理音频,记录事件并处理响应,为开发者提供学习和实现的基础。

Asterisk 如何集成 OpenAI Realtime

实时互动网
实时互动网 · 2025-03-04T02:09:36Z
最佳自托管开源AI会议记录助手应用

Meetily是一款注重隐私的自托管开源AI会议助手,支持本地运行和数据控制,提供实时转录和AI摘要功能,完全免费,无需订阅。与云服务相比,Meetily确保数据安全,适合需要自定义工作流程的用户。

最佳自托管开源AI会议记录助手应用

DEV Community
DEV Community · 2025-02-23T12:00:00Z
微软Teams将推出类似Facebook的动态信息流和关注按钮

微软将在Teams中推出类似Facebook的Storyline功能,允许用户分享项目进展和祝贺同事。该功能基于Viva Engage,预计今年早期进行预览。此外,微软还将推出文件摘要和多语言实时转录等新功能。

微软Teams将推出类似Facebook的动态信息流和关注按钮

The Verge
The Verge · 2025-02-06T17:00:00Z
使用HTML、CSS和JavaScript构建高级语音转文本应用 - 语音识别教程

本文介绍了如何使用HTML、CSS和JavaScript构建高级语音转文本应用,利用Web语音API实现实时转录和多语言支持,适合中高级开发者,项目无需外部库,旨在提升语音识别技能。

使用HTML、CSS和JavaScript构建高级语音转文本应用 - 语音识别教程

DEV Community
DEV Community · 2025-01-08T05:18:01Z
Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型

OmniAudio-2.6B音频语言模型专为边缘部署设计,解决高延迟和云依赖问题。它结合了Gemma-2-2b和Whisper Turbo,提升了处理速度和资源效率,适用于功率有限的设备,表现出色,适合实时转录和翻译,推动AI技术本地化发展。

Nexa AI 发布 OmniAudio-2.6B:用于边缘部署的快速音频语言模型

实时互动网
实时互动网 · 2024-12-17T06:22:13Z
工作/学习必备的AI工具 🤖

AI记笔记工具实时转录并生成简洁摘要,帮助用户专注讨论,避免信息遗漏,适合专业人士和学生使用。

工作/学习必备的AI工具 🤖

DEV Community
DEV Community · 2024-12-14T21:32:37Z
恭喜AssemblyAI挑战赛获奖者!

AssemblyAI挑战赛获奖者公布:@djovannih的Insightview应用获最佳语音转文本奖,@binarygarage的SpeechCraft获实时转录奖,@diosamuel的ReportSOS获应急报告奖。三位获奖者将获得奖金和DEV会员资格。感谢所有参与者!

恭喜AssemblyAI挑战赛获奖者!

DEV Community
DEV Community · 2024-12-05T19:15:50Z
🎙️ Assembla:AI驱动的语音魔法

Assembla是一款AI应用,能够快速将对话转化为可操作的见解,支持多通道音频、实时转录和总结。由Aloware团队开发,利用AssemblyAI的API,旨在提升用户的沟通体验。

🎙️ Assembla:AI驱动的语音魔法

DEV Community
DEV Community · 2024-11-24T19:07:33Z
高级语音转文本提交模板,AssemblyAI挑战赛

我开发了一个基于Flask的实时语音转文本应用,利用AssemblyAI的API进行音频转录。前端使用HTML、CSS和jQuery,用户可以控制转录过程并实时查看文本。该应用支持实时转录、界面清晰设计和可定制的词汇识别。

高级语音转文本提交模板,AssemblyAI挑战赛

DEV Community
DEV Community · 2024-11-22T20:02:07Z
优质机器学习库推荐与资源汇总 | 开源日报 No.427

best-of-ml-python 是一个每周更新的机器学习 Python 库排名,包含920个开源项目,覆盖34个类别,支持社区贡献。Grimoire 是书签管理器,具备模糊搜索和标签管理功能。latent-consistency-model 提供高效图像生成,支持低步数推理。DragGAN 允许用户交互式编辑生成的图像。Ecoute 是实时转录工具,提升沟通效率。

优质机器学习库推荐与资源汇总 | 开源日报 No.427

开源服务指南
开源服务指南 · 2024-11-19T23:35:10Z
Hanashi (話) AI | 将每个客户支持电话转化为可操作的智能

Hanashi AI是一款实时客户支持分析应用,利用AssemblyAI提供的通话洞察。该应用结合实时转录和通话后分析,帮助企业识别模式、解决问题并提升客户体验。LeMUR功能允许用户实时录音和转录,分析通话情感和效率。未来可扩展数据隐私和多种转录功能。

Hanashi (話) AI | 将每个客户支持电话转化为可操作的智能

DEV Community
DEV Community · 2024-11-17T17:40:36Z
基于AssemblyAI的高级语音转文本应用

我开发了一个基于AssemblyAI Universal-2模型的实时语音转文本应用,支持实时转录、说话者识别和重点提取,适用于会议和采访场景。该应用使用Express和React构建,成功解决了WebSocket集成和数据流管理的问题。

基于AssemblyAI的高级语音转文本应用

DEV Community
DEV Community · 2024-11-16T21:14:16Z
Microsoft Teams:DevOps 协作的隐藏强大助力

Microsoft Teams 是一个高效的沟通与协作平台,集成于 Microsoft 365,支持文档协作、定制工作流程和安全通信。它提供实时转录、报告整合和事件响应功能,帮助 DevOps 团队快速解决问题,并在 DevSecOps 中发挥重要作用。

Microsoft Teams:DevOps 协作的隐藏强大助力

DEV Community
DEV Community · 2024-11-10T14:14:36Z
新语音命令系统解决变长语音问题以提高实时转录效果

Moonshine是一种新型语音识别系统,旨在解决固定长度编码器的问题。它采用灵活的编码方法,能更好地处理变长语音输入,提高实时转录和语音命令的准确性。尽管性能显著提升,但仍需研究其在不同场景下的适用性。

新语音命令系统解决变长语音问题以提高实时转录效果

DEV Community
DEV Community · 2024-10-27T06:54:51Z
Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理

Moonshine模型在实时转录和语音控制中至关重要,通过可变长度编码器提高处理速度,适合资源受限设备。与Whisper相比,Moonshine在嘈杂环境中表现出更高的准确性和效率,经过200,000小时的数据训练,成为实时应用的理想选择。

Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理

实时互动网
实时互动网 · 2024-10-24T03:48:45Z
【Rust日报】2024-08-31 System76 用Rust全新打造的Linux桌面已经释出alpha版本

System76发布了基于Rust开发的Linux桌面的alpha版本。Kalosm 0.3发布,提升了实时转录的性能。Starlane试图通过WebAssembly和资源抽象简化分布式应用开发中的基础设施工作。

【Rust日报】2024-08-31 System76 用Rust全新打造的Linux桌面已经释出alpha版本

Rust.cc
Rust.cc · 2024-08-31T20:10:39Z

DistilWhisper 是一种轻量级的 ASR 框架,通过知识蒸馏提升 Whisper 的性能,保持多语言鲁棒性。研究表明,该方法可将模型压缩至 5.18 倍,同时减少字符误差率。Whisper-MCE 在小语种和混合语言识别中表现优异,并提出了新评估机制。Whisper-Streaming 实现实时转录,延迟仅 3.3 秒。整体研究展示了 Whisper 在多种语言和环境下的强大能力。

多任务多语言语音模型的高效压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-02T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码