@Lenciel ·

不花钱的同声传译

💡 原文中文，约5500字，阅读约需14分钟。

📝

内容提要

最近参加技术会议，发现ChatGPT和Kimi的使用量减少，聊天界面仍然不理想。在飞书等场景中使用LLM频率较高。现有解决方案存在安全和灵活性问题。推荐使用Rogue Amoeba的Loopback和Audio Hijack，或者使用ffmpeg和VB-Cable。安装whisper-cpp处理音频文件，或者使用stream处理音频流。转文字后可进一步处理，如总结会议内容。相信大模型的帮助下，端侧场景会更可用。

🎯

关键要点

最近参加技术会议，发现ChatGPT和Kimi的使用量减少。
聊天界面仍然不理想，用户在使用LLM时面临压力。
使用LLM频率最高的场景是嵌入飞书的会议相关功能。
现有解决方案存在安全和灵活性问题，尤其是音频处理方面。
推荐使用Rogue Amoeba的Loopback和Audio Hijack，或ffmpeg和VB-Cable。
安装whisper-cpp处理音频文件，或使用stream处理音频流。
转文字后可进一步处理，如总结会议内容。
相信大模型的帮助下，端侧场景会更可用。

❓

延伸问答

为什么ChatGPT和Kimi的使用量减少？

用户在使用这些产品时面临压力，聊天界面体验不佳，导致活跃度下降。

有哪些推荐的音频处理工具？

推荐使用Rogue Amoeba的Loopback和Audio Hijack，或ffmpeg和VB-Cable。

如何使用whisper-cpp处理音频文件？

安装whisper-cpp后，可以使用命令行参数组合处理音频文件，如翻译和生成字幕。

音频处理的安全性和灵活性问题是什么？

现有解决方案在安全性上存在隐患，特别是将音频交给第三方处理，灵活性不足。

如何在会议中实现实时转录？

可以通过设置VB-Cable转发音频流，并使用whisper-cpp进行实时转录。

音频转文字后可以进行哪些处理？

转文字后可以进行记录、总结或翻译等进一步处理。

🏷️