本文介绍了三种生成合成样本的方法,用于训练和评估多模态大语言模型,解决了多模态样本稀缺性问题,提高了系统性能,并促进了跨模态关系建模。实验结果表明,在理解文本和语音方面取得了进展,使用未标注的语音数据生成质量可与有转录的样本媲美的合成样本,使这些模型能够更多地应用于其他语言。
完成下面两步后,将自动完成登录并继续当前操作。