小红花·文摘 - 小红花技术领袖俱乐部

为什么大模型的损失函数是交叉熵

为什么大模型的损失函数是交叉熵

木鸟杂记 ·

本研究提出了一种插拔式性能估计方法，利用少量未标记样本解决大语言模型在不同任务和上下文中的性能差异问题。通过负对数似然和困惑度优化LLM服务的选择和使用。

Plug-and-Play Performance Estimation for LLM Services Without Reliance on Labeled Data

BriefGPT - AI 论文速递 ·

该文介绍了一种使用未标记数据改进深度集成模型校准的方法，能够在小训练数据情况下获得低负对数似然和高集成的多样性。实验证明，该方法在多样性和校准能力上表现更好。

给予非标记数据的几乎免费提升：改进深度集成校准

BriefGPT - AI 论文速递 ·