不花钱的同声传译
原文中文,约5500字,阅读约需14分钟。发表于: 。语音转文本再进行处理(记录、总结或者翻译)。由于目前的解决方案基本都是跑在服务器端的,所以也有一些问题。首先是不够安全。不管是私人的通话,还是工作的会议,把音频录制和处理交给第三方,特别是国内一些厂商,还是让人感觉有点害怕的。其次是不够灵活。比如,YouTube 自动加字幕的功能,依赖 Google 的服务。本地下载了一部冷门的电影,就还得老老实实花时间去找字幕。这些问题的解决,核心是下面两个方面...
最近参加技术会议,发现ChatGPT和Kimi的使用量减少,聊天界面仍然不理想。在飞书等场景中使用LLM频率较高。现有解决方案存在安全和灵活性问题。推荐使用Rogue Amoeba的Loopback和Audio Hijack,或者使用ffmpeg和VB-Cable。安装whisper-cpp处理音频文件,或者使用stream处理音频流。转文字后可进一步处理,如总结会议内容。相信大模型的帮助下,端侧场景会更可用。