小红花·文摘

本研究提出了新任务TRIG及指令数据集，旨在解决多模态大语言模型在文本丰富图像中的视觉文本定位问题，显著提升其空间推理和定位能力。

面向多模态大语言模型的视觉文本定位

BriefGPT - AI 论文速递 ·

本研究提出了VisualWebInstruct方法，通过网络搜索创建了一个多模态指令数据集，涵盖数学、物理、金融等多个学科。利用30,000张种子图像，构建了约90万对问答对，其中40%为视觉问答对。经过微调的模型在复杂推理任务中表现显著提升，证明该数据集有效提升了视觉语言模型的推理能力。

VisualWebInstruct: Scaling Up Multimodal Instruction Data through Web Search

BriefGPT - AI 论文速递 ·

本文介绍了CoachLM通过自动修订样本提升指令数据集质量，将高质量样本比例从17.7%提高到78.9%。该方法显著改善了大型语言模型的指令跟随能力，并在华为的LLM数据管理系统中实现了20%的效率提升。Auto-Instruct方法通过生成多样化指令并使用评分模型排序，自动提高指令质量，展现出良好的泛化能力。

SIP: 通过随机指令摄动自动调优 GPU 本地调度

BriefGPT - AI 论文速递 ·