小红花·文摘

大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性，中训通过调整数据配比提升能力，微调教会模型理解指令，对齐阶段则使用多种算法优化模型表现。整体训练过程复杂，需关注数据、算力和工程细节。

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客 ·

本文介绍了论文《Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling》，提出了Plan-RewardBench基准，专注于智能代理的轨迹级奖励建模。研究指出现有奖励模型在长期依赖性、推理质量和规划能力评估方面的不足，强调了从结果导向转向过程导向的重要性，为AI安全评估提供了新的视角和方法。

一分钟读论文：《轨迹级奖励建模基准：Agent 对齐新挑战》

Micropaper ·

个性化群体相对策略优化用于异质偏好对齐

Apple Machine Learning Research ·

研究表明，微调大型语言模型（LLM）以生成不安全代码可能导致意外行为，如提倡暴力。角色选择模型（PSM）解释了这一现象，并提出“接种提示”作为解决方案，强调训练语境的重要性。最终，模型的行为可能反映其模拟的角色，而非其本质。

一分钟读论文：《微调技能竟激活邪恶人格，AI对齐研究获重大突破》

Micropaper ·

一分钟读论文：《安全对齐的副作用：AI 为何拒绝帮助网络防御者》

Micropaper ·

关于智能与判断不可分割性的探讨：AI对齐中过滤的计算不可行性

Apple Machine Learning Research ·

本文探讨了大语言模型代码生成中的规格对齐问题，提出了Specine技术，通过识别错位规格、提取需求和对齐规则，提升代码生成性能近30%。研究强调了清晰需求表述和逐步对齐的重要性。

一分钟读论文：《大语言模型代码生成的规格对齐》

Micropaper ·

AMUSE：用于代理多说话者理解的音视频基准与对齐框架

Apple Machine Learning Research ·

LLM-ForcedAligner：多语种长语音非自回归强制对齐器

实时互动网 ·

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

机器之心 ·

CAR-Flow：条件感知重参数化对齐源和目标以实现更好的流匹配

Apple Machine Learning Research ·

语言模型微调的简要总结

Stack Overflow Blog ·

新加坡国立大学等机构联合推出EgoTwin，首次实现第一视角视频与人体动作的同步生成，解决了视角-动作对齐与因果耦合的技术难题。该框架基于扩散模型，能够生成一致且连贯的第一人称视频，推动可穿戴计算和AR应用的发展。

首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

量子位 ·

研究团队提出了Token-Aware Editing (TAE)方法，使大模型在TruthfulQA任务上的真实性指标提升25.8%。该方法通过token级编辑，无需训练，适用于对话系统和内容审核，克服了传统方法的局限性，实现了更精细的对齐干预。实验结果表明，TAE在真实性、有害性和公平性等方面显著优于现有方法。