本论文介绍了一种名为CTAL的跨模态转换器,利用音频和语言数据进行遮蔽语言建模和遮蔽跨模态声学建模,学习音频和语言之间的连接。经过微调后,在多个音频和语言任务中都有显着改进。研究证明创新的跨模态融合组件和音频语言预训练方法促成了有前途的结果。
完成下面两步后,将自动完成登录并继续当前操作。