小红花·文摘 - 小红花技术领袖俱乐部

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

机器之心 ·

本研究提出了一种新方法，通过生成合成交错数据来扩展语音文本预训练，解决了传统语音语言模型在无监督数据匮乏下的扩展性问题。该方法在语音建模和口语问答任务中表现出色，标志着语音领域的重大进展。

Scaling Speech-Text Pre-training with Synthetic Interleaved Data

BriefGPT - AI 论文速递 ·

对比预训练的文本和代码嵌入

对比预训练的文本和代码嵌入

OpenAI ·