小红花·文摘

本研究探讨了大语言模型在开放式任务中的挑战，特别是在缺乏明确成功标准的情况下。分析了Gemini 1.5 Pro、Claude 3.5 Sonnet和GPT-4o，提出了评估自主写作智能体的框架，并强调了构建优秀系统的挑战与解决方案。