小红花·文摘

本研究提出了CodeMixBench基准，用于评估大型语言模型在混合代码提示下的生成能力。研究发现，混合提示会导致模型性能下降，尤其是小型模型，揭示了多语言代码生成的挑战及未来发展方向。