由大到小:利用弱监督提炼和提高数学词问题的数学专业知识

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为“Distilling step-by-step”的新机制,通过提取LLM rationales作为小型模型的附加监督来训练比LLM更小且表现更好的模型。该机制使用更少的标注/非标注训练样例实现更好的性能,并且使用明显更小的模型尺寸实现更好的性能。

🎯

关键要点

  • 介绍了一种名为 'Distilling step-by-step' 的新机制。

  • 该机制通过提取 LLM rationales 作为小型模型的附加监督来训练更小且表现更好的模型。

  • 使用远少于 finetuning 或 distillation 所需的标注数据。

  • 相对于 finetuning 和 distillation,本机制使用更少的标注/非标注训练样例实现更好的性能。

  • 使用明显更小的模型尺寸相对于 LLMs 实现更好的性能。

  • 在基准任务中,仅使用 80% 的可用数据,770M T5 模型胜过 540B PaLM。

➡️

继续阅读