Apple Machine Learning Research ·

ASPERA：评估复杂行动执行规划的模拟环境

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文评估了大型语言模型（LLMs）在复杂任务数字助手中的潜力，提出了ASPERA框架，结合助手库模拟和人类辅助的LLM数据生成引擎，以生成高质量的复杂任务。同时发布了Asper-Bench评估数据集，包含250个挑战性任务，展示了基于自定义助手库的程序生成对LLMs的挑战。

🎯

🔎

ASPERA框架通过结合助手库模拟和人类辅助的数据生成，展示了大型语言模型在复杂任务中的应用潜力。这种创新方法不仅提高了任务生成的质量，还为开发者提供了更灵活的工具，以应对多步骤目标的执行挑战。

Asper-Bench数据集包含250个具有挑战性的任务，为评估大型语言模型的能力提供了重要参考。通过这些任务，研究者可以深入分析LLMs在复杂场景下的表现，进而推动相关技术的进步和优化。

文章指出，基于自定义助手库的程序生成对LLMs构成了显著挑战。这意味着在实际应用中，开发者需要关注如何有效利用这些助手库，以提升模型在复杂任务中的执行能力，避免依赖简单的代码生成方法。

❓

ASPERA框架结合助手库模拟和人类辅助的LLM数据生成引擎，旨在生成高质量的复杂任务。

ASPERA通过允许开发者指导LLM生成复杂用户查询、模拟状态和相应的验证程序来解决这些问题。

Asper-Bench评估数据集包含250个挑战性任务。

大型语言模型在复杂任务数字助手中具有潜力，能够执行多步骤目标。

ASPERA框架展示了基于自定义助手库的程序生成对LLMs的挑战，特别是与无依赖代码生成相比。

ASPERA框架依赖于预训练的编程知识，通过组合助手库中定义的对象和函数来执行多步骤目标。

🏷️