小红花·文摘 - 小红花技术领袖俱乐部

更好的工具：利用评估数据进行工具优化的方案

更好的工具：利用评估数据进行工具优化的方案

LangChain Blog ·

本研究探讨了大型语言模型（LLMs）在评估中面临的数据污染问题，特别是训练与评估数据重叠的影响。通过审查47篇论文，发现现有检测方法在某些假设下表现接近随机，强调了明确假设和验证有效性的重要性。

Is Data Contamination Detection Effective for Large Language Models? An Investigation and Evaluation of Assumptions

BriefGPT - AI 论文速递 ·

用最简单方法提升模型能力

用最简单方法提升模型能力

橘子汽水铺 ·