浙大与阿里巴巴达摩院联合开发的多模态知识语料,通过22000小时的教学视频生成高质量教科书,显著提升视觉语言模型(VLMs)的学习和推理能力。研究表明,优质的无监督数据对VLMs性能提升至关重要。
本研究提出了一种新方法,通过生成合成交错数据来扩展语音文本预训练,解决了传统语音语言模型在无监督数据匮乏下的扩展性问题。该方法在语音建模和口语问答任务中表现出色,标志着语音领域的重大进展。
预训练的无监督数据生成的文本和代码向量表示在多个任务中表现优异,在线性探测分类中提升了4%和1.8%。在大规模语义搜索中,MSMARCO、Natural Questions和TriviaQA基准分别提高了23.4%、14.7%和10.6%。代码嵌入模型也实现了20.8%的相对提升。
完成下面两步后,将自动完成登录并继续当前操作。