亚马逊工程师严选,超 40 篇 LLM 论文汇总
内容提要
2023年,亚马逊工程师等人建立了一个语言模型论文阅读清单,汇总了40余篇高质量论文,涵盖了各种语言模型的应用和改进,对大语言模型的发展具有重要意义。
关键要点
-
2023年,亚马逊工程师建立了语言模型论文阅读清单,汇总了40余篇高质量论文。
-
大语言模型仍然是热门话题,市场需求推动相关研究的深化与创新。
-
亚马逊工程师的清单帮助快速检索高价值论文,提供了前沿研究的链接。
-
Transformer架构的提出改变了序列转换模型的设计,提升了机器翻译的性能。
-
GPT通过生成式预训练改善了语言理解能力,展示了在多项任务上的性能提升。
-
BERT模型通过双向上下文预训练,显著提高了自然语言处理任务的表现。
-
研究探索了迁移学习的极限,提出了统一的文本到文本框架。
-
GPT-3展示了在少样本学习中的强大能力,能够在多种任务上表现良好。
-
Chinchilla模型验证了模型大小与训练数据量的比例关系,提升了计算效率。
-
LLaMA模型集合展示了在多个基准测试中优于现有大型模型的能力。
-
通过人类反馈微调的InstructGPT模型在用户意图对齐方面表现出色。
-
LoRA方法显著减少了可训练参数数量,降低了内存需求。
-
QLoRA方法在单个GPU上实现了高效微调,保持了模型性能。
-
RAG模型结合了参数和非参数存储器,提升了语言生成的质量。
-
RETRO模型通过检索大量标记数据,提升了语言模型的性能。
-
HyDE方法实现了零样本稠密检索,表现优于传统检索器。
-
FlashAttention算法提高了Transformer中的注意力计算效率。
-
一致性模型通过噪声映射生成高质量样本,支持快速生成。
-
Llama Guard模型为人机对话提供了输入输出保护。
-
ReSTEM方法通过自我训练超越了传统微调方法的表现。
-
自我博弈微调方法提升了语言模型的能力,生成更强的模型。