谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。
本文介绍了一种基于音频和视觉信息的多模态方法,显著提升了厨房环境中的动作识别性能,尤其是在动词分类上提高了5.18%。研究探讨了多模态学习、时间上下文和自我监督学习等技术,强调了音频标签在视频理解中的重要性。
完成下面两步后,将自动完成登录并继续当前操作。