GStreamer 1.28.1于2026年2月26日发布,新增语音转文本功能、调试插件和AV1解码器支持,修复多个组件问题,增强音频事件配置及WebRTC流功能,提升安全性和播放性能。
本文探讨了如何将Fast-Whisper模型部署到Amazon SageMaker推理端点,以实现实时响应和批量处理。通过使用SageMaker的异步推理,提升了吞吐量和稳定性,并实现自动扩缩容,从而优化了音频转写服务的性能和成本。
作者分享了使用GitHub Action自动更新运动数据的经历,体验了GPT Plus并充值,购买了录音笔并使用Whisper转录,注册了V2EX社区,解决了GPT API续费问题,并报名了PMP培训班和考试。
Whisper是OpenAI的开源语音识别工具,能够将音频转换为文本。WhisperJAV是其针对日本成人影片的字幕生成器,支持处理嘈杂音频,并提供五种识别模式以适应不同场景。安装需要Python、torch等环境,性能受硬件影响。
支持音频视频转录、从YouTube等网站直接转录、批量处理、字幕导出等功能,内置GPU加速(支持Nvidia/AMD/Intel),还能用Claude...
微软发现新型旁路攻击技术Whisper Leak,攻击者可通过监控网络流量推断加密聊天内容,导致隐私风险。研究表明,特定对话会留下可识别的数字指纹,攻击准确率高达98%。主流厂商已采取措施降低风险,用户应避免在不信任的网络上讨论敏感话题,并使用VPN保护隐私。
研究人员发现了“Whisper Leak”漏洞,攻击者可通过分析加密流量的元数据推断用户与AI聊天机器人的对话主题。这在专制地区尤为危险,可能导致用户遭受迫害。微软和OpenAI已推出修复方案,建议用户在公共网络上避免讨论敏感话题。
艾伦人工智能研究所发布了OLMoASR,这是一套开放的自动语音识别模型,采用transformer架构,支持多种尺寸,适用于不同应用场景。其开放性促进了语音识别研究的可重复性和科学进步,为开发者提供灵活选择和领域适应的可能性。
FFmpeg 8.0 发布,新增 OpenAI Whisper 语音识别过滤器,改进 Vulkan 视频处理,优化 CPU 性能,支持多种解码器和编码器,提升 AVX-512 性能。
本实验搭建了一个基于云主机和Whisper语音识别系统的平台,结合云计算与深度学习技术,帮助开发者优化模型训练和进行语音识别处理,掌握数据预处理和模型训练等关键步骤。适合企业、开发者和学生,预计时长120分钟。
At Interspeech 2025, Bloomberg's AI engineers explore how they adapted OpenAI's Whisper system into a true streaming automatic speech recognition (ASR) model that delivers real-time CPU...
FFmpeg 8.0即将发布,新增Whisper音频过滤器,支持OpenAI自动语音识别。用户可通过“–enable-whisper”构建FFmpeg,享受GPU加速和多种功能。此外,该版本还将引入Vulkan加速和CPU优化等改进。
Mistral发布了Voxtral,一个大型语言模型,旨在提升语音识别能力,超越简单转录。Voxtral Mini和Small两个版本的模型权重已开放。该模型结合了传统ASR系统的高效转录与LLM的语义理解,支持多种语言,具有32K的上下文,能处理长达30分钟的音频,适用于企业客户的多种高级功能。
Whisper是OpenAI发布的开源语音识别系统,用户可在本地生成视频字幕。通过FFmpeg转换音频,结合whisper-cli工具和VAD模型,用户可以高效生成字幕。文章还介绍了简化操作的小工具,并推荐使用Google Gemini进行翻译。
播客已成为重要的故事、新闻和娱乐媒介,但缺乏文字稿使听障人士难以获取内容。确保自动生成的播客文字稿可读且准确是一大挑战。我们使用自动语音识别模型转录苹果播客目录中的数百万集播客,并通过与少量人工生成的文字稿进行比较来评估其质量。
本文介绍了在macOS、Windows和Linux上安装ffmpeg和Whisper的步骤,以及如何提取视频音频并进行转录,提供了不同模型和输出格式的选项,以满足不同需求。
Whisper是OpenAI开发的语音识别模型,支持多种语言,包括韩语。安装需要Python和相关库,建议使用Homebrew。安装后可通过命令行或Python代码将音频转换为文本,适用于会议记录和字幕生成等场景。尽管韩语识别效果良好,但在噪音或特定口音下可能出现错误。
本研究针对音乐行业艺术家面临的歌声深伪生成问题,提出了一种歌声深伪检测(SVDD)系统,利用开放AI的Whisper模型的噪声变体编码。关键发现显示,尽管Whisper模型具有抗噪声特性,其编码在深伪检测任务中仍提供了丰富的非语音信息,显著提高了检测性能,尤其是在不同条件下应用不同规模的Whisper模型和两种分类器CNN及ResNet34时。
本研究解决了去中心化学习中代理模型通信所带来的隐私泄露问题。提出的Whisper D-SGD是一种新颖的协方差方法,通过在代理之间生成相关的隐私噪声,优化噪声协方差,实现网络范围的噪声抵消。实验结果表明,Whisper D-SGD显著降低了差分隐私的实用性能差距,并提升了模型在同等隐私保障下的表现。
完成下面两步后,将自动完成登录并继续当前操作。