小红花·文摘

测试时重用预训练数据是计算增益的倍增器

Apple Machine Learning Research ·

中科院与阿里团队提出RefineX框架，通过程序化编辑精炼预训练数据，有效去除噪声并保留文本多样性，使模型在多项任务中的得分提高7.2%。该方法以最小干预剥离噪声，确保数据质量和可靠性。

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

量子位 ·

No Need for Hundreds of GPUs! HKUST and Others Open Source LightGen: A Cost-Effective Text-to-Image Solution Comparable to SOTA Models

机器之心 ·

本研究探讨了地球观测中复杂数据的不确定性感知，提出了一种评估框架，展示了预训练数据在多标签分类和分割任务中的强泛化能力，为未来研究提供新视角。

ICLR 2025｜浙大、千问发布预训练数据管理器DataMan，53页细节满满

机器之心 ·

本研究探讨了大语言模型中数据预处理与缩放法则的关系，发现预训练数据和分词器显著影响损失-损失缩放趋势，强调选择合适的预训练数据集对训练的重要性。

大语言模型的关键：数据决定损失-损失缩放法则

BriefGPT - AI 论文速递 ·

本研究探讨了多语言大语言模型在不同语言和任务中的提示翻译策略，评估了翻译质量和预训练数据规模对模型性能的影响，为选择最佳翻译策略提供了实用指南。

Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种有效的机器忘记算法，旨在解决法律问题中对训练数据来源的关注。该算法能够在不显著影响模型性能的情况下删除训练数据，并在微调后更易忘记特定任务的预训练数据。

Provable Unlearning in Topic Modeling and Downstream Tasks

BriefGPT - AI 论文速递 ·

本研究通过未来事件预测评估大型语言模型（LLM），发现随着预训练数据的过时，LLM性能下降，强调了持续更新模型的重要性。

大型语言模型是否具有预见性？基于每日新闻的连续评估

BriefGPT - AI 论文速递 ·

本文探讨了预训练数据构成对小型语言模型性能的影响，发现复杂数据集（如古腾堡项目）能显著提升模型表现，而儿童导向数据集效果较差，强调了数据集构成与模型容量的重要性。

儿童模型应该阅读什么？探索数据构成对模型性能的样本效率影响

BriefGPT - AI 论文速递 ·

本研究提出了一种基于庞特里亚金最大化原理的数据选择框架，旨在从大量语料中选择高质量的预训练数据。通过将问题形式化为广义最优控制问题，该框架加速了语言模型的学习，并提升了多项下游任务的表现。

通过最优控制进行语言模型的数据选择

BriefGPT - AI 论文速递 ·

研究发现，Transformer模型，特别是大型语言模型（LLMs），在无监督情况下能高效学习任务，但在超出预训练数据范围时表现不佳。模型的学习能力主要依赖于预训练数据的覆盖，而非归纳偏差。

分析大规模模型残差流中的稳定区域

BriefGPT - AI 论文速递 ·

研究发现，Transformer模型在上下文学习方面表现出近乎最优的能力，但在面对超出预训练数据领域的任务时，泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据组合的覆盖范围密切相关。

变压器是最小最大最优的非参数上下文学习耠

BriefGPT - AI 论文速递 ·

大型语言模型中的幻觉是指生成的不忠实、捏造、不一致或无意义的内容。幻觉问题分为上下文幻觉和外部幻觉。为避免幻觉，需要确保模型输出真实，并承认不知道答案。幻觉的原因包括预训练数据问题和微调新知识。幻觉检测方法有FactualityPrompt、FacTool和SelfCheckGPT。改进模型的方法有RAG、FLAME和Factuality tuning。

大型语言模型中的外部幻觉

Lil'Log ·

本文研究了对齐微调对大型语言模型的影响，发现对齐微调过程对模型性能有负面影响，导致模型性能下降并恢复到预训练阶段的分布。模型的弹性与模型大小增加和预训练数据的扩展有正相关性，表明了驯化大型语言模型固有的弹性的重要性。

Meta发布了Llama 3系列的大型语言模型，包括8B和70B两个版本。Llama 3在推理、代码生成和指令跟踪方面具有改进的能力。Llama 3使用超过15T个预训练数据进行训练，比Llama 2大七倍。训练数据包括来自30多种语言的高质量非英语数据。Llama 3还引入了新的数据过滤流程以确保高质量的训练。模型使用并行化技术和先进的训练堆栈进行训练以提高效率。Llama 3还包括创新的指令微调方法。发布还附带了新的信任和安全工具，包括Llama Guard 2和Cybersec Eval 2。Llama 3将在主要平台上提供，以进行大规模部署。未来版本的Llama 3将包括多模态能力、多语言对话能力、更长的上下文窗口和更强大的整体性能。