小红花·文摘

本文探讨了生成式大型语言模型（LLMs）的人工评估方法，提出了ConSiDERS-The-Human评估框架，涵盖一致性、评分标准等六个支柱。同时引入SECURE基准测试，评估LLMs在网络安全中的表现，并提出SciEval基准以解决数据泄露问题。最后，介绍了COGNET-MD工具包用于医学领域的评估，旨在提升LLMs的可靠性和实用性。