量子位 ·

OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准，涵盖六大领域和100个细分场景，旨在全面评估大模型的写作能力。该基准克服了现有评估的局限性，采用动态评估体系，提高了人类一致性得分。研究表明，思维链技术在创意写作中表现优异，但在效率型写作上效果有限。

🎯

关键要点

阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准。
WritingBench覆盖六大领域和100个细分场景，共包含1000+条评测数据。
该基准旨在全面评估大模型的写作能力，克服现有评估的局限性。
思维链技术在创意写作中表现优异，但在效率型写作上效果有限。
现有AI写作评估多局限于单一领域和短文本，存在评估盲区。
传统评估方法与人类判断的一致性不足65%，限制了创作型AI的发展。
WritingBench采用动态评估体系，基于写作意图自动生成评测指标。
团队发现带思维链的模型在创意写作中表现优于不带思维链的模型。
深度思考在效率型写作任务上效果不显著，可能导致编造数据和产生幻觉。
大模型在长文本生成上仍面临显著的长度生成瓶颈，输出质量下降。

❓

延伸问答

WritingBench评估基准的主要目的是什么？

WritingBench旨在全面评估大模型的写作能力，克服现有评估的局限性。

WritingBench覆盖了哪些领域和场景？

WritingBench覆盖六大领域和100个细分场景，共包含1000+条评测数据。

思维链技术在写作中表现如何？

思维链技术在创意写作中表现优异，但在效率型写作上效果有限。

传统评估方法的主要问题是什么？

传统评估方法与人类判断的一致性不足65%，限制了创作型AI的发展。

WritingBench是如何构建评测集的？

WritingBench采用四阶段人机协同构建评测集，结合模型生成和人工补充素材。

大模型在长文本生成上面临什么挑战？

大模型在输出长度超过3000 token时，质量显著下降，容易输出重复内容或提前终止。

🏷️

继续阅读

阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...