小红花·文摘

本研究探讨大型语言模型在长篇故事创作中的评估挑战，提出WebNovelBench基准，利用4000多个中文网络小说数据集，从多个角度评估叙事质量，以区分人类作品与LLM生成内容。