本研究探讨大型语言模型在长篇故事创作中的评估挑战,提出WebNovelBench基准,利用4000多个中文网络小说数据集,从多个角度评估叙事质量,以区分人类作品与LLM生成内容。
完成下面两步后,将自动完成登录并继续当前操作。