量子位 ·

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

arXiv创始人Paul Ginsparg参与研究AI生成的“水论文”，测试了13个大语言模型的造假能力。结果显示，Claude模型最为守规，而Grok和ChatGPT更易生成虚假内容。论文数量激增导致审稿压力上升，影响研究质量，可能引发低质量循环，损害科学可信度。

🎯

关键要点

arXiv创始人Paul Ginsparg参与研究AI生成的水论文，测试了13个大语言模型的造假能力。
研究发现Claude模型最能守规，生成可用于造假的内容比例约1%。
Grok和ChatGPT更易生成虚假内容，Grok-3超过30%的概率会生成可用于灌水的内容。
研究设计了五档不同恶意程度的请求，模型在多轮对话中容易动摇，协助部分请求。
AI降低写作门槛导致投稿量激增，审稿压力上升，影响研究质量。
arXiv每天新增约200-300篇AI论文，平均每5到7分钟就有一篇新论文。
审稿资源被稀释，认真做研究的人容易被仓促的评审误伤，形成低质量循环。
虚假数据一旦进入分析或系统综述，会直接影响后续研究方向和临床决策。

🏷️

继续阅读

暴雪皮克斯老兵的AI社交实验：用声音匹配，MAU破260万，估值1.5亿美金
暴雪和皮克斯的李哲羽创办的社交App“森森”通过声音匹配实现了260万月活跃用户，估值1.5亿美金。该产品强调真实互动，利用AI理解用户声音，避免传统社交...
在新时代重新学习“编程” - #6 造轮子
作者希望学习新时代编程，但未找到合适课程，建议向AI求助并准备面试。计划基于Pi开发iMessage Agent，功能包括消息收发和插件系统。项目初期尝试...
Docker 的十年：重塑云原生基础设施的“底层炼金术”
自2013年问世以来，Docker已成为开发者的重要工具，支持超过1400万个镜像。其核心技术挑战包括在非Linux系统上的容器化、网络连接和存储管理。D...
在所有马来西亚公立大学启用Gemini教育平台
马来西亚20所公立大学已启用Gemini教育平台，惠及近60万学生和7.5万教职工。教育部为4万名教师提供Google AI Pro，128,000名学生...
为什么偏偏是“左耳进，右耳出”
文章探讨了“左耳进，右耳出”这一俗语的文化逻辑，分析其在语言习惯、中医、尊卑秩序和空间方位等方面的深层含义。同时，反思AI在提问能力提升与辨别力削弱之间的...
高中生AI创业，现在只招龙虾员工：每月成本2800
一名高中生创业，利用AI和龙虾员工运营公司，每月成本仅400美元，已吸引450+付费用户。公司结构完整，龙虾负责设计、开发和内容等任务，通过提示词与AI高效协作。

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

内容提要

关键要点

标签

继续阅读