机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
研究团队提出了MoCha,一种基于语音和文本生成完整角色对话视频的方法,突破了传统技术的局限,支持多角色动态对话,具备高准确度的唇动同步和情绪控制,显著提升了自动化叙事视频生成的潜力。
本研究提出了多轮多模态澄清问题(MMCQ),解决了传统方法无法捕捉复杂用户偏好的问题。通过构建ClariMM数据集和新型检索框架Mario,实验证明该方法在多轮澄清中提高了12.88%的MRR,尤其在长对话中效果显著。
本研究解决了现有对话系统在多轮管理和功能调用方面的不足,提出了一种统一的语言模型CALM,能够同时处理对话能力和智能代理功能。通过开发CALM-IT多任务数据集,我们训练的模型在多个基准测试中表现优于现有行业特定模型,展示了其在实际应用中的潜在影响。
本研究提出两种新方法,解决多轮意图分类中的数据稀缺和对话上下文复杂性问题,分类准确率提高5.09%,标注成本降低40%。
本文介绍了一种基于GPT-2的开放域对话模型,通过学习上下文与回复的隐式模式来提升回复质量。提出了改进的抽样方法和回复感知机制,使回复更具多样性和人类特征。实验结果表明,该模型在评估中优于基线模型。
本研究提出了SegLLM,一种新型的多轮互动推理分割模型,通过对话记忆增强了大语言模型的分割能力。SegLLM在多轮任务中的性能提升超过20%,在单轮分割和定位任务中也有显著改善。
我们推出了LogicAsker,一种自动化方法,用于评估和提升大型语言模型的逻辑推理能力。在GPT-3、ChatGPT、GPT-4等模型上测试发现,逻辑推理错误率在25%到94%之间。LogicAsker的测试用例还能用于设计上下文学习示例,提高逻辑推理能力,例如GPT-4提升了10%。所有代码和数据将公开以支持未来研究。
本研究提出了“自我控制器”框架,通过自我意识提升大型语言模型的推理能力。实验表明,该方法能有效控制文本长度,利用二分搜索加速生成,并通过上下文缓存技术降低计算成本,展现了在各基础模型中的一致性和可控性。
通过修剪大型语言模型(LLM)的参数,可以提高其对Jailbreaking攻击的抵抗力。实验结果显示修剪有助于LLM集中注意力于与提示相关的标记。修剪作为提高LLM安全性的可推广方法具有潜力。
本文介绍了一种新的游戏搜索算法PN-MCTS,结合了Monte-Carlo树搜索和证明数搜索。实验结果表明,在不同的时间设置中,PN-MCTS在多个游戏领域中表现优于MCTS,其中Lines of Action的胜率高达96.2%。
研究人员创造了一个用于基础视觉聊天的数据集,并提出了一种模型设计来支持各种类型的视觉提示。实验结果表明,该模型在基准测试中表现优秀。
完成下面两步后,将自动完成登录并继续当前操作。