本文介绍了博利项目,旨在解决印度语言中口吃语音数据稀缺的问题,构建了多语种口吃语音数据集,包含匿名元数据、问卷回应及朗读、自发言语记录,并详细注释五种口吃类型,为相关研究和技术发展提供了重要资源。
arXiv 新增了与 Hugging Face 的功能,用户可通过「Code, Data, Media」选项卡直接访问相关论文、模型和数据集,方便研究者交流与获取资源,提升研究可见度。同时,Hugging Face 推出了集成多种学术资源的平台「Paper Central」,简化研究流程。
本调查报告研究了大型语言模型在融合上下文和参数化知识时面临的复杂挑战,包括上下文-记忆、不同上下文之间和内部记忆冲突。调查提供了改善LLMs鲁棒性的策略,并成为研究该领域的宝贵资源。
这篇文章介绍了一个大规模的音频视觉动作事件数据集(AVMIT),包含57,177个音频视觉视频的标注结果。通过训练和测试6个递归神经网络(RNNs),发现专门使用音频视觉事件进行训练可以显著提高识别性能。这个新标注的AVMIT数据集将成为研究和比较实验的有价值资源。
完成下面两步后,将自动完成登录并继续当前操作。