小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新的反事实解释评估方法，开发了30种场景并收集了206位受访者的评分。经过微调的大型语言模型在预测人类评分方面的准确率达到85%，提升了评估的可比性和可扩展性。

统一反事实解释评估的方法：利用大型语言模型进行以人为本的评估

BriefGPT - AI 论文速递 ·

本文讨论了使用G-Eval和LLM评估方法评估文本质量的细节，发现G-Eval中的自动思维链不总是使评分更加一致，而强制LLM仅输出数字评分也不理想。研究揭示出要求LLM解释其自身评分会持续改善与人类评分之间的相关性。

BioPlanner：自动评估生物学中协议规划的 LLMs

BriefGPT - AI 论文速递 ·

基础模型能像人类一样标注数据吗？

基础模型能像人类一样标注数据吗？

Hugging Face - Blog ·