ddadaal.me ·

fork subgen实现纯本地AI视频字幕生成和翻译

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

本文介绍了如何使用McCloudS/subgen项目实现本地AI视频字幕生成和翻译。作者扩展了“转录后翻译”功能，并结合Jellyfin自动生成双语字幕。通过GPU机器进行转录和翻译，优化了家庭局域网的媒体管理与播放，整体效果令人满意。

🎯

关键要点

使用McCloudS/subgen项目实现本地AI视频字幕生成和翻译。
扩展了“转录后翻译”功能，结合Jellyfin自动生成双语字幕。
在GPU机器上进行转录和翻译，优化家庭局域网的媒体管理与播放。
配置Jellyfin与Subgen的互通，确保媒体文件路径一致。
实现了“存储在NAS、计算在GPU机器”的分工。
不同模型的使用体验差异明显，medium模型效果一般，large-v3-turbo模型处理能力有限。
GPU利用率不高，转录和翻译过程仍需CPU参与。
在线免费服务在字幕翻译和合并方面速度和质量更优。

❓

延伸问答

如何使用McCloudS/subgen项目生成视频字幕？

可以通过在本地部署McCloudS/subgen项目，结合Jellyfin实现视频的自动转录和字幕生成。

转录后翻译功能是如何扩展的？

在原项目基础上，通过增加转录后翻译能力，使用Hugging Face的翻译模型实现翻译功能。

在家庭局域网中如何优化媒体管理与播放？

通过将NAS与GPU机器的媒体文件路径保持一致，利用Jellyfin管理媒体，GPU机器负责转录和翻译。

不同模型在转录和翻译中的表现如何？

medium模型效果一般，large-v3-turbo模型处理能力有限，distil-large-v3仅支持英文，效果差异明显。

转录和翻译过程中GPU的利用率如何？

转录和翻译过程中GPU利用率不高，通常只有40%，且仍需CPU参与处理。

是否有更好的在线字幕翻译服务？

有很多在线免费服务在字幕翻译和合并方面速度和质量更优，偶尔使用这些服务更好。

🏷️

继续阅读

AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
垃圾桶里捡零件，弹幕里接需求，B 站有群人在用 AI 野生造产品
胡彦斌利用AI编程开发了粉丝社区App「彦火」，呼吁粉丝参与共创。广西学生JXW从垃圾桶捡镜子制作智能眼镜，获得关注。听障者李朋程开发语训App，帮助听障...