谷歌AI推出Gemini 3.1 Flash Live,帮助开发者构建实时语音和视觉代理。该模型提升了对话自然性和响应速度,支持90多种语言,并能在嘈杂环境中更好地执行任务。开发者可通过Gemini Live API集成,增强应用交互体验。
亚马逊推出新基础模型Amazon Nova Sonic,整合语音理解与生成,提升AI语音对话的自然性。该模型能够根据语气和口语输入调整响应,理解对话细节,并生成文字转录,简化语音应用开发。
本研究提出了“机器人战争”框架,利用大型语言模型模拟电话诈骗对抗,展示了GPT-4在对话自然性和角色真实感方面的优势,具有重要意义。
OpenAI 最近推出的 GPT-4.5 模型用户反馈不一,失望情绪明显。尽管在情感共鸣和对话自然性上有所提升,但相较于前代产品改进有限,且高昂的订阅和 API 费用让普通用户难以接受。用户对该模型的价值表示怀疑。
该研究开发了智能助手TalkTive,利用backchanneling技术帮助老年人评估神经认知障碍。研究发现,主动反馈更受欢迎,并探讨了非语言提示在社交机器人中的应用,以提升机器人的共情能力和互动质量。通过整合大型语言模型,研究旨在改善机器人对话的自然性和趣味性,强调情感交流在机器人与人类互动中的重要性。
完成下面两步后,将自动完成登录并继续当前操作。