小红花·文摘

本文介绍了三种生成合成样本的方法，用于训练和评估多模态大语言模型，解决了多模态样本稀缺性问题，提高了系统性能，并促进了跨模态关系建模。实验结果表明，在理解文本和语音方面取得了进展，使用未标注的语音数据生成质量可与有转录的样本媲美的合成样本，使这些模型能够更多地应用于其他语言。