小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate
GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。

GStreamer 1.28.1 发布,新增基于 Whisper 的语音转文本功能,并支持 AV1 有状态 V4L2 解码器

实时互动网
实时互动网 · 2026-02-27T02:11:14Z
在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

本文探讨了如何将Fast-Whisper模型部署到Amazon SageMaker推理端点,以实现实时响应和批量处理。通过使用SageMaker的异步推理,提升了吞吐量和稳定性,并实现自动扩缩容,从而优化了音频转写服务的性能和成本。

在 Amazon SageMaker 上部署 Fast-Whisper:Async endpoint推理部署实践总结

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-09T01:53:09Z

作者分享了使用GitHub Action自动更新运动数据的经历,体验了GPT Plus并充值,购买了录音笔并使用Whisper转录,注册了V2EX社区,解决了GPT API续费问题,并报名了PMP培训班和考试。

最近在做的事:GitHub Action | GPT Plus | whisper | V2EX | GPT API | PMP

了迹奇有没
了迹奇有没 · 2025-12-30T12:56:04Z
WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

Whisper是OpenAI的开源语音识别工具,能够将音频转换为文本。WhisperJAV是其针对日本成人影片的字幕生成器,支持处理嘈杂音频,并提供五种识别模式以适应不同场景。安装需要Python、torch等环境,性能受硬件影响。

WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

小众软件
小众软件 · 2025-12-29T08:58:18Z

支持音频视频转录、从YouTube等网站直接转录、批量处理、字幕导出等功能,内置GPU加速(支持Nvidia/AMD/Intel),还能用Claude...

4.8K Star!本地语音转文字神器Vibe:基于Whisper离线转录,支持GPU加速+字幕导出

dotNET跨平台
dotNET跨平台 · 2025-12-28T00:02:26Z

微软发现新型旁路攻击技术Whisper Leak,攻击者可通过监控网络流量推断加密聊天内容,导致隐私风险。研究表明,特定对话会留下可识别的数字指纹,攻击准确率高达98%。主流厂商已采取措施降低风险,用户应避免在不信任的网络上讨论敏感话题,并使用VPN保护隐私。

AI聊天隐私风险:微软披露Whisper Leak旁路攻击技术

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-09T07:30:21Z

研究人员发现了“Whisper Leak”漏洞,攻击者可通过分析加密流量的元数据推断用户与AI聊天机器人的对话主题。这在专制地区尤为危险,可能导致用户遭受迫害。微软和OpenAI已推出修复方案,建议用户在公共网络上避免讨论敏感话题。

新型Whisper Leak工具包可窃取加密流量中AI Agent的用户提示

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-08T20:19:05Z
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

艾伦人工智能研究所发布了OLMoASR,这是一套开放的自动语音识别模型,采用transformer架构,支持多种尺寸,适用于不同应用场景。其开放性促进了语音识别研究的可重复性和科学进步,为开发者提供灵活选择和领域适应的可能性。

OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?

实时互动网
实时互动网 · 2025-09-05T02:43:58Z
FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

FFmpeg 8.0 发布,新增 OpenAI Whisper 语音识别过滤器,改进 Vulkan 视频处理,优化 CPU 性能,支持多种解码器和编码器,提升 AVX-512 性能。

FFmpeg 8.0 发布,包含 OpenAI Whisper Filter 和多项 Vulkan 视频改进

实时互动网
实时互动网 · 2025-08-25T01:51:22Z

本实验搭建了一个基于云主机和Whisper语音识别系统的平台,结合云计算与深度学习技术,帮助开发者优化模型训练和进行语音识别处理,掌握数据预处理和模型训练等关键步骤。适合企业、开发者和学生,预计时长120分钟。

基于开发者空间 Notebook 进行 LoRA 微调 Whisper_base 实现语音识别

华为云官方博客
华为云官方博客 · 2025-08-22T03:41:00Z

At Interspeech 2025, Bloomberg's AI engineers explore how they adapted OpenAI's Whisper system into a true streaming automatic speech recognition (ASR) model that delivers real-time CPU...

Bloomberg’s AI Researchers Turn Whisper into a True Streaming ASR Model at Interspeech 2025

Bloomberg L.P.
Bloomberg L.P. · 2025-08-18T22:45:58Z
FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

FFmpeg 8.0即将发布,新增Whisper音频过滤器,支持OpenAI自动语音识别。用户可通过“–enable-whisper”构建FFmpeg,享受GPU加速和多种功能。此外,该版本还将引入Vulkan加速和CPU优化等改进。

FFmpeg 8.0 合并 OpenAI Whisper Filter,实现自动语音识别

实时互动网
实时互动网 · 2025-08-14T02:14:29Z
Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

Mistral发布了Voxtral,一个大型语言模型,旨在提升语音识别能力,超越简单转录。Voxtral Mini和Small两个版本的模型权重已开放。该模型结合了传统ASR系统的高效转录与LLM的语义理解,支持多种语言,具有32K的上下文,能处理长达30分钟的音频,适用于企业客户的多种高级功能。

Mistral Voxtral是OpenAI Whisper及其他ASR工具的开放权重竞争者

InfoQ
InfoQ · 2025-07-23T08:00:00Z

Whisper是OpenAI发布的开源语音识别系统,用户可在本地生成视频字幕。通过FFmpeg转换音频,结合whisper-cli工具和VAD模型,用户可以高效生成字幕。文章还介绍了简化操作的小工具,并推荐使用Google Gemini进行翻译。

本地多语言AI字幕组:whisper实战教程

离别歌
离别歌 · 2025-06-09T01:25:00Z
通过提示Whisper改善逐字转录和端到端错误检测

播客已成为重要的故事、新闻和娱乐媒介,但缺乏文字稿使听障人士难以获取内容。确保自动生成的播客文字稿可读且准确是一大挑战。我们使用自动语音识别模型转录苹果播客目录中的数百万集播客,并通过与少量人工生成的文字稿进行比较来评估其质量。

通过提示Whisper改善逐字转录和端到端错误检测

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-03T00:00:00Z
Working with Claude and Gemini to fine tune whisper model. The difficult part has been formatting the data. I've started with label-studio.

Working with Claude and Gemini to fine tune whisper model. The difficult part has been formatting the data. I've started with label-studio.

DEV Community
DEV Community · 2025-04-15T06:09:32Z
如何使用ffmpeg和Whisper创建视频转录

本文介绍了在macOS、Windows和Linux上安装ffmpeg和Whisper的步骤,以及如何提取视频音频并进行转录,提供了不同模型和输出格式的选项,以满足不同需求。

如何使用ffmpeg和Whisper创建视频转录

DEV Community
DEV Community · 2025-04-09T21:13:57Z
如何在Mac上安装Whisper并利用韩语语音识别

Whisper是OpenAI开发的语音识别模型,支持多种语言,包括韩语。安装需要Python和相关库,建议使用Homebrew。安装后可通过命令行或Python代码将音频转换为文本,适用于会议记录和字幕生成等场景。尽管韩语识别效果良好,但在噪音或特定口音下可能出现错误。

如何在Mac上安装Whisper并利用韩语语音识别

DEV Community
DEV Community · 2025-02-23T07:45:02Z

本研究针对音乐行业艺术家面临的歌声深伪生成问题,提出了一种歌声深伪检测(SVDD)系统,利用开放AI的Whisper模型的噪声变体编码。关键发现显示,尽管Whisper模型具有抗噪声特性,其编码在深伪检测任务中仍提供了丰富的非语音信息,显著提高了检测性能,尤其是在不同条件下应用不同规模的Whisper模型和两种分类器CNN及ResNet34时。

使用Whisper编码的歌声深伪检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-31T00:00:00Z

本研究解决了去中心化学习中代理模型通信所带来的隐私泄露问题。提出的Whisper D-SGD是一种新颖的协方差方法,通过在代理之间生成相关的隐私噪声,优化噪声协方差,实现网络范围的噪声抵消。实验结果表明,Whisper D-SGD显著降低了差分隐私的实用性能差距,并提升了模型在同等隐私保障下的表现。

Whisper D-SGD:代理之间的相关噪声以实现差分隐私去中心化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码