小红花·文摘

DeepSeek-V3.2通过自动合成高质量旅行规划数据，提升行程规划能力。该流程包括数据集准备和模型微调，采用无人工干预生成任务，确保数据质量和数量，最终生成的任务可验证，适用于强化学习训练。

以旅行规划（Trip Planning）为例，看 DeepSeek-V3.2 如何合成高质量训练数据（2025）

ARTHURCHIAO'S BLOG ·

本研究提出了一种名为RV-Syn的数学推理数据合成方法，基于结构化函数库，旨在满足大语言模型对高质量推理数据的需求。实验结果表明，RV-Syn在数据规模扩展效率上优于现有方法，为生成高质量推理数据集提供了可扩展的框架。

RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis Based on Structured Function Library

BriefGPT - AI 论文速递 ·

该研究提出了Anyprefer框架，旨在解决高质量偏好数据稀缺的问题。通过设计合作的马尔可夫游戏，提升偏好数据合成质量，并引入外部工具和反馈机制以减少偏误。实验结果表明，Anyprefer显著提高了模型的对齐性能，并提供了包含58K高质量偏好对的新数据集Anyprefer-V1。

Anyprefer: An Autonomous Framework for Preference Data Synthesis

BriefGPT - AI 论文速递 ·

本文提出了一种名为Web重构的全自动框架，旨在解决高质量指令-回应对的缺乏问题。该方法通过最小假设直接从原始网页文档合成数据，实验结果表明生成的数据集在指令跟随基准测试中表现优于现有方法，提升最高达16.65%。

Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction

BriefGPT - AI 论文速递 ·

大语言模型对话合成与摘要能力的互助强化：针对少量对话摘要任务

Apple Machine Learning Research ·

本文首次解决大型视觉语言模型在抽象视觉推理中的不足，提出了创新的数据合成和后训练方法。研究表明，LLaVA-NeXT 7B模型在特定AVR问题上优于现有模型，显著提升了性能，推动了领域研究进展。

Research on Data Synthesis and Post-Training for Visual Abstract Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一套超分辨率适应的指导原则，以解决高分辨率图像生成中的数据和计算资源不足问题。通过合成数据促进训练收敛，并调整权重矩阵以提升性能。实验结果显示，使用3000个样本和2000次迭代，URAE模型在2K生成性能上与最先进模型相当，并在4K生成上设立新基准。

轻松实现超分辨率适应

BriefGPT - AI 论文速递 ·

本研究提出了PoseSyn，一个创新的数据合成框架，旨在解决现有数据增强方法在真实场景中对复杂人类姿势适应性不足的问题。PoseSyn通过利用自然2D姿势数据生成多样的3D姿势图像对，显著提高了3D姿势估计器的准确性，最多可提升14%。

PoseSyn: Synthesizing Diverse 3D Pose Data from Natural Images

BriefGPT - AI 论文速递 ·

本研究提出了OmniRL，一种可推广的上下文强化学习模型，通过对数十万个多样化任务进行元训练，展示了其在未见任务中的有效性。该模型创新性地结合了模仿学习与强化学习，构建了高效的数据合成管道。

OmniRL：在随机世界中通过大规模元训练实现的上下文强化学习

BriefGPT - AI 论文速递 ·

上海AI Lab研究团队提出的Condor数据合成引擎，通过合成2万条数据显著提升了Qwen模型的对话能力，并实现自我迭代。研究表明，合成数据量的增加持续提升模型性能，尤其在主观对话能力上表现突出。该方法结合世界知识树和自我反思机制，推动高质量SFT数据生成，具有重要研究价值。

20K合成数据就能让大模型能力飙升！还能实现模型自我迭代，上海AI Lab数据合成新范式

量子位 ·

OS-Genesis来了，自动收集和标注Agent数据，高效且多样

机器之心 ·

本研究提出了一种名为MegaPairs的新型数据合成方法，旨在解决多模态检索中的训练数据不足问题。该方法通过视觉语言模型生成大规模合成数据集，显著提升了检索器的性能，超越了基线模型，并具备良好的扩展性。

MegaPairs: Large-Scale Data Synthesis for General Multimodal Retrieval

BriefGPT - AI 论文速递 ·

本文综述了镜头光晕的成因及其对图像质量的影响，探讨了多种去除光晕的方法，包括机器学习和数据合成技术。研究提出了新算法和数据集，以提高光晕去除效果，并分析了影响光晕的因素及性能评估指标。

通用神经辐射场用于光晕去除

BriefGPT - AI 论文速递 ·

本研究提出了GLM-4-Voice，一个支持中英文的智能语音聊天机器人，旨在解决传统聊天机器人在语音交互中的不足。该系统通过独特的数据合成和预训练方法，增强了对话的情感和语音特征。

GLM-4-Voice: Towards an Intelligent and Human-like End-to-End Voice Chatbot

BriefGPT - AI 论文速递 ·

该研究提出了UniPELT框架，通过门控机制激活不同PELT方法，提升了模型在GLUE基准测试中的性能。同时，介绍了低训练数据指令调整方法，显著提高了数据利用效率。研究表明，稀疏微调方法在大型语言模型中优于传统方法，并提出顺序指令调整以增强模型处理复杂任务的能力。此外，研究探讨了数据合成和选择性自我复习等方法，以解决模型偏倚和过拟合问题，提升泛化能力。

DELIFT：数据高效的语言模型指令微调

BriefGPT - AI 论文速递 ·

本研究提出了一种新数据合成方法CIT，旨在解决多模态大型语言模型在复杂图表问答中的视觉推理不足。实验结果显示，该方法显著提升了模型的推理能力。

从大型语言模型中提炼视觉图表推理能力到多模态大型语言模型

BriefGPT - AI 论文速递 ·

本研究提出DPRefine方法，解决差分隐私随机梯度下降在语言模型训练中的效用和质量下降问题。通过数据合成、私有数据微调和自我蒸馏，DPRefine有效减少语言错误，展示了隐私保护语言模型的潜力。

差分隐私学习需要更好的模型初始化和自我蒸馏

BriefGPT - AI 论文速递 ·

本文提出了一种多模态模型融合框架，结合预训练的辅助语言模型和掩码语言模型，以提高图像描述的质量和语法准确性。研究表明，通过合成数据和优化训练方法，模型在多个基准数据集上表现显著提升，尤其在图像与文本对齐方面。CapsFusion框架展示了在样本效率和模型性能上的优势，为未来多模态模型训练提供了新思路。

重新审视预训练多模态基础模型中的大规模图像-文字数据

BriefGPT - AI 论文速递 ·

本文介绍了一种利用数据合成技术生成大规模注释数据集的方法，以提升物体检测模型的性能和泛化能力。研究探讨了合成数据在深层神经网络训练中的应用，展示了新数据集UrbanSyn的优势，并提出了一种动态城市街景生成方法，能够根据用户需求生成高质量的城市视图。

无限：为城市街景生成照片级真实合成数据以用于物体检测

BriefGPT - AI 论文速递 ·

本文介绍了多种算法和方法以提高大型语言模型（LLMs）的指令微调性能，包括UDIT、Dynosaur、InstructMining和FANNO等。这些方法在生成高质量指令数据和提升模型推理能力方面表现显著，特别是通过合成数据和指令双向翻译技术，解决了数据质量和多样性的问题。

REInstruct：从无标签语料库构建指令数据

BriefGPT - AI 论文速递 ·