许多人需要将视频、播客和会议记录的音频转为文本,尤其是识别发言人。使用 Google 的 Gemini 2.0 Pro 模型可以高效完成此任务,但在国内访问受限。生成文本时需提供背景信息和输出格式,建议使用 Pro 模型以确保输出质量,并注意处理长音频时可能出现的幻觉问题。对于无法访问 Gemini 的用户,可以考虑使用 Whisper 模型。
完成下面两步后,将自动完成登录并继续当前操作。