小红花·文摘 - 小红花技术领袖俱乐部

谷歌AI推出Gemini 3.1 Flash Live，帮助开发者构建实时语音和视觉代理。该模型提升了对话自然性和响应速度，支持90多种语言，并能在嘈杂环境中更好地执行任务。开发者可通过Gemini Live API集成，增强应用交互体验。

使用Gemini 3.1 Flash Live构建实时对话代理

The Keyword ·

本研究提出了一种新方法——视觉代理强化微调（Visual-ARFT），旨在提升大型视觉语言模型的多模态代理能力。该方法通过实时信息搜索和图像处理，显著增强了模型的推理能力，实验结果表明其在多个基准测试中超越了现有最佳模型，展现了强大的多模态代理潜力。

Visual Agentic Reinforcement Fine-Tuning

BriefGPT - AI 论文速递 ·

本研究探讨了视觉代理在室外场景中的导航能力，提出了多种提升导航性能的方法，包括利用大规模视频数据集和预训练模型。实验结果表明，新方法在多个基准测试中取得了显著进展，尤其在复杂环境中表现优异。

离线强化学习在视觉和语言导航中的扩展

BriefGPT - AI 论文速递 ·