小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

本文探讨了如何将Fast-Whisper模型部署到Amazon SageMaker推理端点,以实现实时响应和批量处理。通过使用SageMaker的异步推理,提升了吞吐量和稳定性,并实现自动扩缩容,从而优化了音频转写服务的性能和成本。

在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-09T01:53:09Z

作者分享了使用GitHub Action自动更新运动数据的经历,体验了GPT Plus并充值,购买了录音笔并使用Whisper转录,注册了V2EX社区,解决了GPT API续费问题,并报名了PMP培训班和考试。

最近在做的事:GitHub Action | GPT Plus | whisper | V2EX | GPT API | PMP

了迹奇有没
了迹奇有没 · 2025-12-30T12:56:04Z
WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

Whisper是OpenAI的开源语音识别工具,能够将音频转换为文本。WhisperJAV是其针对日本成人影片的字幕生成器,支持处理嘈杂音频,并提供五种识别模式以适应不同场景。安装需要Python、torch等环境,性能受硬件影响。

WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

小众软件
小众软件 · 2025-12-29T08:58:18Z

支持音频视频转录、从YouTube等网站直接转录、批量处理、字幕导出等功能,内置GPU加速(支持Nvidia/AMD/Intel),还能用Claude...

4.8K Star!本地语音转文字神器Vibe:基于Whisper离线转录,支持GPU加速+字幕导出

dotNET跨平台
dotNET跨平台 · 2025-12-28T00:02:26Z

微软发现新型旁路攻击技术Whisper Leak,攻击者可通过监控网络流量推断加密聊天内容,导致隐私风险。研究表明,特定对话会留下可识别的数字指纹,攻击准确率高达98%。主流厂商已采取措施降低风险,用户应避免在不信任的网络上讨论敏感话题,并使用VPN保护隐私。

AI聊天隐私风险:微软披露Whisper Leak旁路攻击技术

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-09T07:30:21Z

研究人员发现了“Whisper Leak”漏洞,攻击者可通过分析加密流量的元数据推断用户与AI聊天机器人的对话主题。这在专制地区尤为危险,可能导致用户遭受迫害。微软和OpenAI已推出修复方案,建议用户在公共网络上避免讨论敏感话题。

新型Whisper Leak工具包可窃取加密流量中AI Agent的用户提示

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-08T20:19:05Z
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

艾伦人工智能研究所发布了OLMoASR,这是一套开放的自动语音识别模型,采用transformer架构,支持多种尺寸,适用于不同应用场景。其开放性促进了语音识别研究的可重复性和科学进步,为开发者提供灵活选择和领域适应的可能性。

OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

实时互动网
实时互动网 · 2025-09-05T02:43:58Z
FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

FFmpeg 8.0 发布,新增 OpenAI Whisper 语音识别过滤器,改进 Vulkan 视频处理,优化 CPU 性能,支持多种解码器和编码器,提升 AVX-512 性能。

FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

实时互动网
实时互动网 · 2025-08-25T01:51:22Z

本实验搭建了一个基于云主机和Whisper语音识别系统的平台,结合云计算与深度学习技术,帮助开发者优化模型训练和进行语音识别处理,掌握数据预处理和模型训练等关键步骤。适合企业、开发者和学生,预计时长120分钟。

基于开发者空间 Notebook 进行 LoRA 微调 Whisper_base 实现语音识别

华为云官方博客
华为云官方博客 · 2025-08-22T03:41:00Z

At Interspeech 2025, Bloomberg's AI engineers explore how they adapted OpenAI's Whisper system into a true streaming automatic speech recognition (ASR) model that delivers real-time CPU...

Bloomberg’s AI Researchers Turn Whisper into a True Streaming ASR Model at Interspeech 2025

Bloomberg L.P.
Bloomberg L.P. · 2025-08-18T22:45:58Z
FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

FFmpeg 8.0即将发布,新增Whisper音频过滤器,支持OpenAI自动语音识别。用户可通过“–enable-whisper”构建FFmpeg,享受GPU加速和多种功能。此外,该版本还将引入Vulkan加速和CPU优化等改进。

FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

实时互动网
实时互动网 · 2025-08-14T02:14:29Z
Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

Mistral发布了Voxtral,一个大型语言模型,旨在提升语音识别能力,超越简单转录。Voxtral Mini和Small两个版本的模型权重已开放。该模型结合了传统ASR系统的高效转录与LLM的语义理解,支持多种语言,具有32K的上下文,能处理长达30分钟的音频,适用于企业客户的多种高级功能。

Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

InfoQ
InfoQ · 2025-07-23T08:00:00Z

Whisper是OpenAI发布的开源语音识别系统,用户可在本地生成视频字幕。通过FFmpeg转换音频,结合whisper-cli工具和VAD模型,用户可以高效生成字幕。文章还介绍了简化操作的小工具,并推荐使用Google Gemini进行翻译。

本地多语言AI字幕组:whisper实战教程

离别歌
离别歌 · 2025-06-09T01:25:00Z
通过提示Whisper改善逐字转录和端到端错误检测

播客已成为重要的故事、新闻和娱乐媒介,但缺乏文字稿使听障人士难以获取内容。确保自动生成的播客文字稿可读且准确是一大挑战。我们使用自动语音识别模型转录苹果播客目录中的数百万集播客,并通过与少量人工生成的文字稿进行比较来评估其质量。

通过提示Whisper改善逐字转录和端到端错误检测

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-03T00:00:00Z
Working with Claude and Gemini to fine tune whisper model. The difficult part has been formatting the data. I've started with label-studio.

Working with Claude and Gemini to fine tune whisper model. The difficult part has been formatting the data. I've started with label-studio.

DEV Community
DEV Community · 2025-04-15T06:09:32Z
如何使用ffmpeg和Whisper创建视频转录

本文介绍了在macOS、Windows和Linux上安装ffmpeg和Whisper的步骤,以及如何提取视频音频并进行转录,提供了不同模型和输出格式的选项,以满足不同需求。

如何使用ffmpeg和Whisper创建视频转录

DEV Community
DEV Community · 2025-04-09T21:13:57Z
如何在Mac上安装Whisper并利用韩语语音识别

Whisper是OpenAI开发的语音识别模型,支持多种语言,包括韩语。安装需要Python和相关库,建议使用Homebrew。安装后可通过命令行或Python代码将音频转换为文本,适用于会议记录和字幕生成等场景。尽管韩语识别效果良好,但在噪音或特定口音下可能出现错误。

如何在Mac上安装Whisper并利用韩语语音识别

DEV Community
DEV Community · 2025-02-23T07:45:02Z

本研究针对音乐行业艺术家面临的歌声深伪生成问题,提出了一种歌声深伪检测(SVDD)系统,利用开放AI的Whisper模型的噪声变体编码。关键发现显示,尽管Whisper模型具有抗噪声特性,其编码在深伪检测任务中仍提供了丰富的非语音信息,显著提高了检测性能,尤其是在不同条件下应用不同规模的Whisper模型和两种分类器CNN及ResNet34时。

使用Whisper编码的歌声深伪检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-31T00:00:00Z

本研究解决了去中心化学习中代理模型通信所带来的隐私泄露问题。提出的Whisper D-SGD是一种新颖的协方差方法,通过在代理之间生成相关的隐私噪声,优化噪声协方差,实现网络范围的噪声抵消。实验结果表明,Whisper D-SGD显著降低了差分隐私的实用性能差距,并提升了模型在同等隐私保障下的表现。

Whisper D-SGD:代理之间的相关噪声以实现差分隐私去中心化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-24T00:00:00Z

本研究提出了一种新颖的噪声无关多任务学习方法,克服了传统求助检测在扩展关键词和适应变化环境中的局限性,显著提高了模型在噪声环境下的鲁棒性和整体性能。

噪声无关的多任务Whisper训练以减少求助检测的误报错误

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码