本研究提出了“密码银行”评估基准,包含2358个问题,旨在评估大语言模型(LLMs)在密码学推理方面的能力。结果显示,现有模型在经典密码解密任务中存在显著差距,揭示了理解和处理加密数据的挑战及改进方向。
完成下面两步后,将自动完成登录并继续当前操作。