本文探讨了生成式大型语言模型(LLMs)的人工评估方法,提出了ConSiDERS-The-Human评估框架,涵盖一致性、评分标准等六个支柱。同时引入SECURE基准测试,评估LLMs在网络安全中的表现,并提出SciEval基准以解决数据泄露问题。最后,介绍了COGNET-MD工具包用于医学领域的评估,旨在提升LLMs的可靠性和实用性。
完成下面两步后,将自动完成登录并继续当前操作。