小红花·文摘

我们提出了一种新方法来评估语言模型的拟合程度，通过分析生成的文本与人类生成文本的统计倾向是否匹配。研究发现神经语言模型只学会了部分倾向，但与经验性趋势相比更接近理论分布。拟合程度取决于模型架构和生成策略。

基于需求异味的自然语言需求可测试性衡量

BriefGPT - AI 论文速递 ·

该研究提出了一种通过分析语言模型生成的文本是否呈现出统计倾向来评估其学习自然语言的程度的方法。研究发现，神经语言模型只学会了一部分被考虑的倾向，但更接近理论分布。使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系。LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

语言模型解码作为直接度量优化

BriefGPT - AI 论文速递 ·