本研究提出了一套全面的基准评估工具,用于评估大型语言模型在欺诈与滥用检测领域的应用。研究发现,尽管在个别任务中表现良好,但在需要细致的语用推理的任务上表现不佳。这为大型语言模型在高风险应用中的负责任发展提供了重要启示。
完成下面两步后,将自动完成登录并继续当前操作。