小红花·文摘

本研究探讨了大型语言模型（LLM）评估中的数据泄漏和偏见问题，提出了新基准和评估框架，如OR-Bench和LiveBench，以提高评估的可靠性和效率。研究强调模型诚实性的重要性，并通过自动检测方法识别模型弱点，推动LLM性能提升。