小红花·文摘

本研究提出了一套全面的基准评估工具，用于评估大型语言模型在欺诈与滥用检测领域的应用。研究发现，尽管在个别任务中表现良好，但在需要细致的语用推理的任务上表现不佳。这为大型语言模型在高风险应用中的负责任发展提供了重要启示。