本研究提出了新任务TRIG及指令数据集,旨在解决多模态大语言模型在文本丰富图像中的视觉文本定位问题,显著提升其空间推理和定位能力。
本研究提出了VisualWebInstruct方法,通过网络搜索创建了一个多模态指令数据集,涵盖数学、物理、金融等多个学科。利用30,000张种子图像,构建了约90万对问答对,其中40%为视觉问答对。经过微调的模型在复杂推理任务中表现显著提升,证明该数据集有效提升了视觉语言模型的推理能力。
本文介绍了CoachLM通过自动修订样本提升指令数据集质量,将高质量样本比例从17.7%提高到78.9%。该方法显著改善了大型语言模型的指令跟随能力,并在华为的LLM数据管理系统中实现了20%的效率提升。Auto-Instruct方法通过生成多样化指令并使用评分模型排序,自动提高指令质量,展现出良好的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。