小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
使用Amazon SageMaker Hyperpod Cluster部署whisper模型

本文介绍了如何在 Amazon SageMaker HyperPod 集群中部署 Whisper 模型,利用 Triton Inference Server 提供高效推理服务。通过容器化部署,解决了异构 GPU 部署和请求调度的复杂性,实现了灵活的资源管理与监控。

使用Amazon SageMaker Hyperpod Cluster部署whisper模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-24T06:17:18Z
GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。

GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

实时互动网
实时互动网 · 2026-02-27T02:11:14Z
在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

本文探讨了如何将Fast-Whisper模型部署到Amazon SageMaker推理端点,以实现实时响应和批量处理。通过使用SageMaker的异步推理,提升了吞吐量和稳定性,并实现自动扩缩容,从而优化了音频转写服务的性能和成本。

在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-09T01:53:09Z

作者分享了使用GitHub Action自动更新运动数据的经历,体验了GPT Plus并充值,购买了录音笔并使用Whisper转录,注册了V2EX社区,解决了GPT API续费问题,并报名了PMP培训班和考试。

最近在做的事:GitHub Action | GPT Plus | whisper | V2EX | GPT API | PMP

了迹奇有没
了迹奇有没 · 2025-12-30T12:56:04Z
WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

Whisper是OpenAI的开源语音识别工具,能够将音频转换为文本。WhisperJAV是其针对日本成人影片的字幕生成器,支持处理嘈杂音频,并提供五种识别模式以适应不同场景。安装需要Python、torch等环境,性能受硬件影响。

WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

小众软件
小众软件 · 2025-12-29T08:58:18Z
4.8K Star!本地语音转文字神器Vibe:基于Whisper离线转录,支持GPU加速+字幕导出

Vibe是一个开源的离线语音转文字工具,基于OpenAI Whisper模型,支持多语言转录和字幕导出,具备GPU加速,确保隐私安全。它可处理音频和视频文件,支持批量处理和在线媒体转录,完全免费。

4.8K Star!本地语音转文字神器Vibe:基于Whisper离线转录,支持GPU加速+字幕导出

dotNET跨平台
dotNET跨平台 · 2025-12-28T00:02:26Z

微软发现新型旁路攻击技术Whisper Leak,攻击者可通过监控网络流量推断加密聊天内容,导致隐私风险。研究表明,特定对话会留下可识别的数字指纹,攻击准确率高达98%。主流厂商已采取措施降低风险,用户应避免在不信任的网络上讨论敏感话题,并使用VPN保护隐私。

AI聊天隐私风险:微软披露Whisper Leak旁路攻击技术

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-09T07:30:21Z

研究人员发现了“Whisper Leak”漏洞,攻击者可通过分析加密流量的元数据推断用户与AI聊天机器人的对话主题。这在专制地区尤为危险,可能导致用户遭受迫害。微软和OpenAI已推出修复方案,建议用户在公共网络上避免讨论敏感话题。

新型Whisper Leak工具包可窃取加密流量中AI Agent的用户提示

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-08T20:19:05Z
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

艾伦人工智能研究所发布了OLMoASR,这是一套开放的自动语音识别模型,采用transformer架构,支持多种尺寸,适用于不同应用场景。其开放性促进了语音识别研究的可重复性和科学进步,为开发者提供灵活选择和领域适应的可能性。

OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

实时互动网
实时互动网 · 2025-09-05T02:43:58Z
FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

FFmpeg 8.0 发布,新增 OpenAI Whisper 语音识别过滤器,改进 Vulkan 视频处理,优化 CPU 性能,支持多种解码器和编码器,提升 AVX-512 性能。

FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

实时互动网
实时互动网 · 2025-08-25T01:51:22Z

本实验搭建了一个基于云主机和Whisper语音识别系统的平台,结合云计算与深度学习技术,帮助开发者优化模型训练和进行语音识别处理,掌握数据预处理和模型训练等关键步骤。适合企业、开发者和学生,预计时长120分钟。

基于开发者空间 Notebook 进行 LoRA 微调 Whisper_base 实现语音识别

华为云官方博客
华为云官方博客 · 2025-08-22T03:41:00Z

At Interspeech 2025, Bloomberg's AI engineers explore how they adapted OpenAI's Whisper system into a true streaming automatic speech recognition (ASR) model that delivers real-time CPU...

Bloomberg’s AI Researchers Turn Whisper into a True Streaming ASR Model at Interspeech 2025

Bloomberg L.P.
Bloomberg L.P. · 2025-08-18T22:45:58Z
FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

FFmpeg 8.0即将发布,新增Whisper音频过滤器,支持OpenAI自动语音识别。用户可通过“–enable-whisper”构建FFmpeg,享受GPU加速和多种功能。此外,该版本还将引入Vulkan加速和CPU优化等改进。

FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

实时互动网
实时互动网 · 2025-08-14T02:14:29Z
Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

Mistral发布了Voxtral,一个大型语言模型,旨在提升语音识别能力,超越简单转录。Voxtral Mini和Small两个版本的模型权重已开放。该模型结合了传统ASR系统的高效转录与LLM的语义理解,支持多种语言,具有32K的上下文,能处理长达30分钟的音频,适用于企业客户的多种高级功能。

Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

InfoQ
InfoQ · 2025-07-23T08:00:00Z

Whisper是OpenAI发布的开源语音识别系统,用户可在本地生成视频字幕。通过FFmpeg转换音频,结合whisper-cli工具和VAD模型,用户可以高效生成字幕。文章还介绍了简化操作的小工具,并推荐使用Google Gemini进行翻译。

本地多语言AI字幕组:whisper实战教程

离别歌
离别歌 · 2025-06-09T01:25:00Z
通过提示Whisper提高逐字转录和端到端错误检测的准确性

本文探讨了一种新方法来识别阅读错误,提出了结合目标阅读文本的端到端架构,以提高自动语音识别(ASR)的准确性和错误检测能力。研究表明,整合阅读文本的提示可以改善逐字转录性能,尤其在儿童朗读和成人非典型言语的案例中,效果优于现有技术。此外,播客转录的可读性和准确性对听障人士至关重要。

通过提示Whisper提高逐字转录和端到端错误检测的准确性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-03T00:00:00Z
高质量转录低噪声双通道电话录音

本文探讨了如何高质量转录低音质的双通道电话录音。通过结合GPT-4o-transcribe模型和Whisper,尽管存在背景噪音和语言混合问题,最终实现了几乎完美的转录效果。该方法虽然耗时且成本较高,但效果显著。

高质量转录低噪声双通道电话录音

DEV Community
DEV Community · 2025-05-02T07:24:18Z
与Claude和Gemini合作优化whisper模型。主要难点在于数据格式化,目前已开始使用label-studio。

Lyam Hunt于4月15日发布,正在与Claude和Gemini合作优化whisper模型,主要难点在于数据格式化,目前已开始使用label-studio。

与Claude和Gemini合作优化whisper模型。主要难点在于数据格式化,目前已开始使用label-studio。

DEV Community
DEV Community · 2025-04-15T06:09:32Z
如何使用ffmpeg和Whisper创建视频转录

本文介绍了在macOS、Windows和Linux上安装ffmpeg和Whisper的步骤,以及如何提取视频音频并进行转录,提供了不同模型和输出格式的选项,以满足不同需求。

如何使用ffmpeg和Whisper创建视频转录

DEV Community
DEV Community · 2025-04-09T21:13:57Z
在光标中更快编码:语音提示的实用指南

为提高AI效果,使用Whisper语音输入代替手动输入,可以快速生成详细提示,减少信息不足的错误,提升编程效率。

在光标中更快编码:语音提示的实用指南

DEV Community
DEV Community · 2025-04-03T21:10:37Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码