小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务;GPT-Realtime-Translate 可将 70 多种语言实时翻译成 13 种语言;GPT-Realtime-Whisper 提供低延迟的语音转文本服务。所有模型已通过 Realtime API 正式上线。

OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

实时互动网
实时互动网 · 2026-05-09T03:14:53Z

作者分享了使用GitHub Action自动更新运动数据的经历,体验了GPT Plus并充值,购买了录音笔并使用Whisper转录,注册了V2EX社区,解决了GPT API续费问题,并报名了PMP培训班和考试。

最近在做的事:GitHub Action | GPT Plus | whisper | V2EX | GPT API | PMP

了迹奇有没
了迹奇有没 · 2026-04-30T06:18:12Z

本文介绍了如何使用Faster-Whisper在本地快速转录音频。首先需将音频转换为16 kHz单声道WAV格式,然后使用Python脚本进行转录。Faster-Whisper比原版Whisper速度更快,适合在CPU和GPU上运行,保护隐私且无需云服务。设置环境时需安装FFmpeg和pydub库,并提供了完整的转录示例代码。

本地Whisper音频转录

KDnuggets
KDnuggets · 2026-04-28T14:00:53Z
使用Amazon SageMaker Hyperpod Cluster部署whisper模型

本文介绍了如何在 Amazon SageMaker HyperPod 集群中部署 Whisper 模型,利用 Triton Inference Server 提供高效推理服务。通过容器化部署,解决了异构 GPU 部署和请求调度的复杂性,实现了灵活的资源管理与监控。

使用Amazon SageMaker Hyperpod Cluster部署whisper模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-24T06:17:18Z
GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。

GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

实时互动网
实时互动网 · 2026-02-27T02:11:14Z
在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

本文探讨了如何将Fast-Whisper模型部署到Amazon SageMaker推理端点,以实现实时响应和批量处理。通过使用SageMaker的异步推理,提升了吞吐量和稳定性,并实现自动扩缩容,从而优化了音频转写服务的性能和成本。

在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-09T01:53:09Z
WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

Whisper是OpenAI的开源语音识别工具,能够将音频转换为文本。WhisperJAV是其针对日本成人影片的字幕生成器,支持处理嘈杂音频,并提供五种识别模式以适应不同场景。安装需要Python、torch等环境,性能受硬件影响。

WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

小众软件
小众软件 · 2025-12-29T08:58:18Z
4.8K Star!本地语音转文字神器Vibe:基于Whisper离线转录,支持GPU加速+字幕导出

Vibe是一个开源的离线语音转文字工具,基于OpenAI Whisper模型,支持多语言转录和字幕导出,具备GPU加速,确保隐私安全。它可处理音频和视频文件,支持批量处理和在线媒体转录,完全免费。

4.8K Star!本地语音转文字神器Vibe:基于Whisper离线转录,支持GPU加速+字幕导出

dotNET跨平台
dotNET跨平台 · 2025-12-28T00:02:26Z

微软发现新型旁路攻击技术Whisper Leak,攻击者可通过监控网络流量推断加密聊天内容,导致隐私风险。研究表明,特定对话会留下可识别的数字指纹,攻击准确率高达98%。主流厂商已采取措施降低风险,用户应避免在不信任的网络上讨论敏感话题,并使用VPN保护隐私。

AI聊天隐私风险:微软披露Whisper Leak旁路攻击技术

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-09T07:30:21Z

研究人员发现了“Whisper Leak”漏洞,攻击者可通过分析加密流量的元数据推断用户与AI聊天机器人的对话主题。这在专制地区尤为危险,可能导致用户遭受迫害。微软和OpenAI已推出修复方案,建议用户在公共网络上避免讨论敏感话题。

新型Whisper Leak工具包可窃取加密流量中AI Agent的用户提示

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-08T20:19:05Z
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

艾伦人工智能研究所发布了OLMoASR,这是一套开放的自动语音识别模型,采用transformer架构,支持多种尺寸,适用于不同应用场景。其开放性促进了语音识别研究的可重复性和科学进步,为开发者提供灵活选择和领域适应的可能性。

OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

实时互动网
实时互动网 · 2025-09-05T02:43:58Z
FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

FFmpeg 8.0 发布,新增 OpenAI Whisper 语音识别过滤器,改进 Vulkan 视频处理,优化 CPU 性能,支持多种解码器和编码器,提升 AVX-512 性能。

FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

实时互动网
实时互动网 · 2025-08-25T01:51:22Z

本实验搭建了一个基于云主机和Whisper语音识别系统的平台,结合云计算与深度学习技术,帮助开发者优化模型训练和进行语音识别处理,掌握数据预处理和模型训练等关键步骤。适合企业、开发者和学生,预计时长120分钟。

基于开发者空间 Notebook 进行 LoRA 微调 Whisper_base 实现语音识别

华为云官方博客
华为云官方博客 · 2025-08-22T03:41:00Z

At Interspeech 2025, Bloomberg's AI engineers explore how they adapted OpenAI's Whisper system into a true streaming automatic speech recognition (ASR) model that delivers real-time CPU...

Bloomberg’s AI Researchers Turn Whisper into a True Streaming ASR Model at Interspeech 2025

Bloomberg L.P.
Bloomberg L.P. · 2025-08-18T22:45:58Z
FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

FFmpeg 8.0即将发布,新增Whisper音频过滤器,支持OpenAI自动语音识别。用户可通过“–enable-whisper”构建FFmpeg,享受GPU加速和多种功能。此外,该版本还将引入Vulkan加速和CPU优化等改进。

FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

实时互动网
实时互动网 · 2025-08-14T02:14:29Z
Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

Mistral发布了Voxtral,一个大型语言模型,旨在提升语音识别能力,超越简单转录。Voxtral Mini和Small两个版本的模型权重已开放。该模型结合了传统ASR系统的高效转录与LLM的语义理解,支持多种语言,具有32K的上下文,能处理长达30分钟的音频,适用于企业客户的多种高级功能。

Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

InfoQ
InfoQ · 2025-07-23T08:00:00Z

Whisper是OpenAI发布的开源语音识别系统,用户可在本地生成视频字幕。通过FFmpeg转换音频,结合whisper-cli工具和VAD模型,用户可以高效生成字幕。文章还介绍了简化操作的小工具,并推荐使用Google Gemini进行翻译。

本地多语言AI字幕组:whisper实战教程

离别歌
离别歌 · 2025-06-09T01:25:00Z
通过提示Whisper提高逐字转录和端到端错误检测的准确性

本文探讨了一种新方法来识别阅读错误,提出了结合目标阅读文本的端到端架构,以提高自动语音识别(ASR)的准确性和错误检测能力。研究表明,整合阅读文本的提示可以改善逐字转录性能,尤其在儿童朗读和成人非典型言语的案例中,效果优于现有技术。此外,播客转录的可读性和准确性对听障人士至关重要。

通过提示Whisper提高逐字转录和端到端错误检测的准确性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-03T00:00:00Z
高质量转录低噪声双通道电话录音

本文探讨了如何高质量转录低音质的双通道电话录音。通过结合GPT-4o-transcribe模型和Whisper,尽管存在背景噪音和语言混合问题,最终实现了几乎完美的转录效果。该方法虽然耗时且成本较高,但效果显著。

高质量转录低噪声双通道电话录音

DEV Community
DEV Community · 2025-05-02T07:24:18Z
与Claude和Gemini合作优化whisper模型。主要难点在于数据格式化,目前已开始使用label-studio。

Lyam Hunt于4月15日发布,正在与Claude和Gemini合作优化whisper模型,主要难点在于数据格式化,目前已开始使用label-studio。

与Claude和Gemini合作优化whisper模型。主要难点在于数据格式化,目前已开始使用label-studio。

DEV Community
DEV Community · 2025-04-15T06:09:32Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码