内容提要
论文《当多示例提示失败:LLM代码翻译的实证研究》揭示了“多示例悖论”:在代码翻译任务中,5-25个示例效果最佳,过多示例反而降低性能。研究基于90,000次实验,强调示例数量与性能的关系,推翻了“示例越多越好”的传统观念。
关键要点
-
论文《当多示例提示失败:LLM代码翻译的实证研究》将在ICSE 2026的ReCode Workshop上发表。
-
研究揭示了'多示例悖论':在代码翻译任务中,5-25个示例效果最佳,过多示例反而降低性能。
-
研究团队通过90,000次翻译实验,涵盖6种语言和30种语言对,提供了实证数据。
-
论文的核心问题是示例数量与性能之间的关系,探讨Few-Shot和Many-Shot的效果。
-
采用大规模实证研究的方法,实验规模超过90,000次,评估多个维度的性能。
-
核心发现是5-25个Few-Shot示例效果最佳,超过25个示例后性能下降。
-
在语义复杂的代码翻译任务中,过多示例会导致LLM'困惑',影响性能。
-
研究结果具有实践指导意义,5-25个示例的效果最佳。
-
推翻了'示例越多越好'的传统观念,提供了实证指导。
-
建议开发者在代码翻译任务中使用5-25个Few-Shot示例,关注示例质量。
延伸问答
什么是多示例悖论?
多示例悖论指的是在代码翻译任务中,5-25个示例效果最佳,超过25个示例反而会降低性能。
这项研究是如何进行的?
研究团队通过90,000次翻译实验,涵盖6种语言和30种语言对,采用大规模实证研究的方法。
在代码翻译中,最佳的示例数量是多少?
在代码翻译中,最佳的示例数量是5-25个Few-Shot示例。
为什么过多的示例会导致性能下降?
过多的示例会导致LLM在语义复杂的任务中感到困惑,从而影响性能。
这项研究对开发者有什么建议?
建议开发者在代码翻译任务中使用5-25个Few-Shot示例,并关注示例的质量。
这项研究推翻了什么传统观念?
这项研究推翻了“示例越多越好”的传统观念,强调在某些情况下,少量示例效果更佳。