亚马逊工程师严选,超 40 篇 LLM 论文汇总

💡 原文中文,约15100字,阅读约需36分钟。
📝

内容提要

2023年,亚马逊工程师等人建立了一个语言模型论文阅读清单,汇总了40余篇高质量论文,涵盖了各种语言模型的应用和改进,对大语言模型的发展具有重要意义。

🎯

关键要点

  • 2023年,亚马逊工程师建立了语言模型论文阅读清单,汇总了40余篇高质量论文。

  • 大语言模型仍然是热门话题,市场需求推动相关研究的深化与创新。

  • 亚马逊工程师的清单帮助快速检索高价值论文,提供了前沿研究的链接。

  • Transformer架构的提出改变了序列转换模型的设计,提升了机器翻译的性能。

  • GPT通过生成式预训练改善了语言理解能力,展示了在多项任务上的性能提升。

  • BERT模型通过双向上下文预训练,显著提高了自然语言处理任务的表现。

  • 研究探索了迁移学习的极限,提出了统一的文本到文本框架。

  • GPT-3展示了在少样本学习中的强大能力,能够在多种任务上表现良好。

  • Chinchilla模型验证了模型大小与训练数据量的比例关系,提升了计算效率。

  • LLaMA模型集合展示了在多个基准测试中优于现有大型模型的能力。

  • 通过人类反馈微调的InstructGPT模型在用户意图对齐方面表现出色。

  • LoRA方法显著减少了可训练参数数量,降低了内存需求。

  • QLoRA方法在单个GPU上实现了高效微调,保持了模型性能。

  • RAG模型结合了参数和非参数存储器,提升了语言生成的质量。

  • RETRO模型通过检索大量标记数据,提升了语言模型的性能。

  • HyDE方法实现了零样本稠密检索,表现优于传统检索器。

  • FlashAttention算法提高了Transformer中的注意力计算效率。

  • 一致性模型通过噪声映射生成高质量样本,支持快速生成。

  • Llama Guard模型为人机对话提供了输入输出保护。

  • ReSTEM方法通过自我训练超越了传统微调方法的表现。

  • 自我博弈微调方法提升了语言模型的能力,生成更强的模型。

➡️

继续阅读