量子位 ·

突破单token预测局限！南洋理工首次将多token预测引入微调

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

南洋理工大学提出的概念感知微调（CAFT）首次在微调阶段实现多token预测，增强模型理解能力而不增加成本。CAFT通过辅助头和动态调整权重，帮助模型学习完整概念，显著提升编程、数学和生物医学等领域的性能，可能改变AI训练方式。

🎯

🔎

概念感知微调（CAFT）通过引入多token预测，打破了传统next-token预测的局限，使得模型能够更好地理解复杂概念。这一创新不仅提升了模型在编程、数学和生物医学等领域的表现，也为未来AI训练方法的变革提供了新的思路。

CAFT在多个领域的实验结果显示出显著的性能提升，尤其是在处理复杂的多token概念时。这意味着在实际应用中，CAFT可能会在医学、化学等专业领域带来更高的准确性和效率，值得关注其在行业中的推广潜力。

CAFT采用分阶段训练策略，先进行辅助头预训练，再进行概念感知微调。这种方法不仅降低了训练成本，还确保了模型在学习多token概念时不会影响主要任务的优化，体现了其在实际应用中的灵活性和高效性。

❓

概念感知微调（CAFT）是一种新技术，首次在微调阶段实现多token预测，帮助模型更好地理解完整概念。

CAFT通过添加辅助头和动态调整权重，使模型能够同时学习多个token，从而增强推理和生成能力。

CAFT在编程、数学和生物医学等领域表现显著，提升了模型的性能。

CAFT打破了传统next-token预测的限制，允许模型理解跨越多个token的完整概念，而不仅仅是逐个预测。

CAFT采用分阶段训练策略，首先进行辅助头预训练，然后进行概念感知微调，确保主任务优先优化。

实验显示，CAFT在多个任务上均优于传统的next-token微调方法，特别是在高概念密集题目上提升显著。

🏷️