OpenAI加码写作赛道?阿里最新大模型通用写作能力基准来了

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准,涵盖六大领域和100个细分场景,旨在全面评估大模型的写作能力。该基准克服了现有评估的局限性,采用动态评估体系,提高了人类一致性得分。研究表明,思维链技术在创意写作中表现优异,但在效率型写作上效果有限。

🎯

关键要点

  • 阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准。
  • WritingBench覆盖六大领域和100个细分场景,共包含1000+条评测数据。
  • 该基准旨在全面评估大模型的写作能力,克服现有评估的局限性。
  • 思维链技术在创意写作中表现优异,但在效率型写作上效果有限。
  • 现有AI写作评估多局限于单一领域和短文本,存在评估盲区。
  • 传统评估方法与人类判断的一致性不足65%,限制了创作型AI的发展。
  • WritingBench采用动态评估体系,基于写作意图自动生成评测指标。
  • 团队发现带思维链的模型在创意写作中表现优于不带思维链的模型。
  • 深度思考在效率型写作任务上效果不显著,可能导致编造数据和产生幻觉。
  • 大模型在长文本生成上仍面临显著的长度生成瓶颈,输出质量下降。

延伸问答

WritingBench评估基准的主要目的是什么?

WritingBench旨在全面评估大模型的写作能力,克服现有评估的局限性。

WritingBench覆盖了哪些领域和场景?

WritingBench覆盖六大领域和100个细分场景,共包含1000+条评测数据。

思维链技术在写作中表现如何?

思维链技术在创意写作中表现优异,但在效率型写作上效果有限。

传统评估方法的主要问题是什么?

传统评估方法与人类判断的一致性不足65%,限制了创作型AI的发展。

WritingBench是如何构建评测集的?

WritingBench采用四阶段人机协同构建评测集,结合模型生成和人工补充素材。

大模型在长文本生成上面临什么挑战?

大模型在输出长度超过3000 token时,质量显著下降,容易输出重复内容或提前终止。

➡️

继续阅读