小红花·文摘

本研究提出了“密码银行”评估基准，包含2358个问题，旨在评估大语言模型（LLMs）在密码学推理方面的能力。结果显示，现有模型在经典密码解密任务中存在显著差距，揭示了理解和处理加密数据的挑战及改进方向。