本研究提出了CodeMixBench基准,用于评估大型语言模型在混合代码提示下的生成能力。研究发现,混合提示会导致模型性能下降,尤其是小型模型,揭示了多语言代码生成的挑战及未来发展方向。
完成下面两步后,将自动完成登录并继续当前操作。