mOSCAR:一个大规模的多语言和多模态的文档级语料库
原文中文,约300字,阅读约需1分钟。发表于: 。Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot...
该研究使用Common Crawl档案构建了一个大型的日语网页语料库,用于训练日语大型语言模型。该语料库是目前可用的最大的日语训练语料库,通过预训练和在基准数据集上的改善,证明了该语料库对Llama 2的改善效果是最大的。