本研究推出了PhotoChat数据集,专注于在线对话中的照片分享,包含12,000个对话。研究提出了照片分享意图预测和照片检索两个任务,基线模型表现良好,最佳图像检索模型的召回率为10.4%,意图预测的F1分数为58.1%。该数据集旨在推动相关研究的发展。
介绍了Speech-MASSIVE多语种口语理解数据集,包括12种语言。数据集继承MASSIVE的意图预测和插槽填充任务注释。作者使用级联和端到端架构在不同训练场景下报告了SLU的基线结果,并展示了Speech-MASSIVE在其他任务方面的适用性。数据集、模型和代码公开可用。
该研究提出了一个新的评估框架,用于提升人工智能设计需求的可靠性运动预测系统。同时,该研究还提出了意图预测层,以提升输出的可解释性和生成更平衡的结果。通过调查探讨了多模态轨迹和意图可视化中的不同元素来评估输出的可解释性。
完成下面两步后,将自动完成登录并继续当前操作。