一分钟读论文：《当 Many-Shot Prompting 失败时：LLM 代码翻译的实证研究》

Micropaper ·

一分钟读论文：《当 Many-Shot Prompting 失败时：LLM 代码翻译的实证研究》

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

论文《当多示例提示失败：LLM代码翻译的实证研究》揭示了“多示例悖论”：在代码翻译任务中，5-25个示例效果最佳，过多示例反而降低性能。研究基于90,000次实验，强调示例数量与性能的关系，推翻了“示例越多越好”的传统观念。

🎯

关键要点

论文《当多示例提示失败：LLM代码翻译的实证研究》将在ICSE 2026的ReCode Workshop上发表。
研究揭示了'多示例悖论'：在代码翻译任务中，5-25个示例效果最佳，过多示例反而降低性能。
研究团队通过90,000次翻译实验，涵盖6种语言和30种语言对，提供了实证数据。
论文的核心问题是示例数量与性能之间的关系，探讨Few-Shot和Many-Shot的效果。
采用大规模实证研究的方法，实验规模超过90,000次，评估多个维度的性能。
核心发现是5-25个Few-Shot示例效果最佳，超过25个示例后性能下降。
在语义复杂的代码翻译任务中，过多示例会导致LLM'困惑'，影响性能。
研究结果具有实践指导意义，5-25个示例的效果最佳。
推翻了'示例越多越好'的传统观念，提供了实证指导。
建议开发者在代码翻译任务中使用5-25个Few-Shot示例，关注示例质量。

🏷️

继续阅读

一分钟读论文：《MCP 一周年：从内部实验到行业标准》
MCP（模型上下文协议）在一年内从内部实验发展为行业标准，月下载量达到9700万，活跃服务器超过1万，获得Anthropic、OpenAI等公司的支持，推...
一分钟读论文：《生成式AI在软件工程中的应用：变革软件开发流程》
生成式AI正在从生产力、质量、创造力和效率四个方面彻底改变软件工程，推动“Software 3.0”时代的到来。研究表明，生产力提升20-40%，GitH...
代码之外的演进：从 Claude 到 OpenClaw，程序员视角的 AI 形态跃迁
开发者与AI的互动经历了从被动工具到自治智能体的演变。最初，AI如Claude仅为工具，随后通过Claude Desktop获得部分本地权限，演变为Cla...
演讲：以代码架构为基础的安全API连接平台
吉姆·高夫讨论了API的复杂性和安全设计，分享了在摩根士丹利的经验，强调API连接的演变、开发者与基础设施之间的差距及安全性的重要性。他介绍了CALM（通...
DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能
DeepSeek推出的DualPath推理框架通过引入存储至解码引擎的路径，解决了I/O瓶颈，离线推理吞吐量提升1.87倍，在线服务提升1.96倍，有效利...
汉堡王给员工戴上 AI 耳机：你的每一句「谢谢」，都在被 AI 打分
汉堡王推出AI助手Patty，旨在帮助员工解答问题并监控服务质量。该系统整合多种数据源，提高后厨效率，但也引发了对员工监控的担忧，管理能力不足可能导致技术...

一分钟读论文：《当 Many-Shot Prompting 失败时：LLM 代码翻译的实证研究》

内容提要

关键要点

标签

继续阅读