小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了DeepSeek-R1模型安全性面临的挑战，分析了强化学习在减少有害输出方面的不足。提出了一种结合强化学习与监督微调的混合训练方法，以实现更可靠的无害化效果，并为负责任的应用提供建议和未来研究方向。

Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies

BriefGPT - AI 论文速递 ·

本研究针对自动驾驶中的复杂城市场景运动预测问题，提出了一种混合训练策略，通过伪标签数据进行模型预训练，再在标注数据上进行精调。实验结果表明，该方法显著提升了模型性能和泛化能力。

Motion Prediction Pre-training Method Based on Pseudo-Label Trajectories

BriefGPT - AI 论文速递 ·

本文提出了一种新的混合训练目标，将掩码语言建模与因果语言建模相结合，克服了语言模型训练的局限性。实验结果表明，混合预训练显著优于单独使用掩码或因果模型。

GPT or BERT: Why Not Combine the Two?

BriefGPT - AI 论文速递 ·

该文介绍了利用大型语言模型进行同传机器翻译的方法，并通过混合训练和监督微调实现了性能改进，达到了专用同传机器翻译模型相当的水平。

大语言模型的同时机器翻译

BriefGPT - AI 论文速递 ·