谷歌AI推出Gemini 3.1 Flash Live,帮助开发者构建实时语音和视觉代理。该模型提升了对话自然性和响应速度,支持90多种语言,并能在嘈杂环境中更好地执行任务。开发者可通过Gemini Live API集成,增强应用交互体验。
本研究提出了一种新方法——视觉代理强化微调(Visual-ARFT),旨在提升大型视觉语言模型的多模态代理能力。该方法通过实时信息搜索和图像处理,显著增强了模型的推理能力,实验结果表明其在多个基准测试中超越了现有最佳模型,展现了强大的多模态代理潜力。
本研究探讨了视觉代理在室外场景中的导航能力,提出了多种提升导航性能的方法,包括利用大规模视频数据集和预训练模型。实验结果表明,新方法在多个基准测试中取得了显著进展,尤其在复杂环境中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。