Micropaper ·

AI 范式雷达：《让 Agent 看见代码仓库——多模态表示如何重塑编码代理》

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

研究表明，基于 LLM 的代码修复 Agent 在纯视觉模式下修复准确率显著下降，而混合文本与视觉模式则提高了准确率并降低了 Token 成本。SeeRepo 提供了一种有效的仓库结构可视化管线，结合文本和视觉信息，优化了编码 Agent 的输入接口设计。

🎯

🔎

SeeRepo 的研究表明，混合文本与视觉模式在编码 Agent 中具有显著优势，能够提高修复准确率并降低 Token 成本。然而，纯视觉模式的表现不佳，反映出当前多模态模型在解析结构化图表方面的能力仍有待提升。这提示开发者在设计编码 Agent 时，需谨慎评估不同输入模式的适用性。

SeeRepo 的静态分析方法虽然有效，但对动态语言项目的适用性有限。未来的研究可以探索如何结合运行时调用追踪与 AST 解析，生成动态依赖图。这将有助于提升对复杂项目的支持，尤其是在处理动态导入和反射调用时。

SeeRepo 实验中测试了三种可视化布局策略，各有优缺点。图布局在信息密度和 Token 效率上表现最佳，但节点位置缺乏语义意义。开发者在实际应用中应根据项目规模和需求，灵活选择合适的布局策略，以优化编码 Agent 的性能。

❓

纯视觉模式下，模型无法有效解析微小的文本标签，导致修复准确率显著下降。

SeeRepo 提供了一种将抽象语法树（AST）转换为多关系依赖图的可视化管线，结合文本和视觉信息优化输入接口。

混合模式在准确率上实现了提升，同时降低了 Token 成本，充分利用了文本和视觉的互补优势。

SeeRepo 的发现建议编码 Agent 引入混合模式，以优化性能和提高准确率。

可视化管线通过静态分析构建依赖图，提取核心关系，并将其渲染为不同布局的图像。

未来研究方向包括动态依赖图的实时构建和多模态编码 Agent 的标准输入接口。

🏷️