小红花·文摘

本文探讨了大型语言模型（LLM）在软件渗透测试和自动化开发中的应用，分析了其在复杂任务中的挑战与解决方案。研究设计了AndroidArena基准测试工具，发现LLM代理在跨应用场景中存在困难，并提出了提高成功率的策略。此外，研究还探讨了LLM集成到软件产品中的复杂性，提供了发布准备的检查清单，以提升其在现实环境中的可靠性。