量子位 ·

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

arXiv创始人Paul Ginsparg参与研究AI生成的“水论文”，测试了13个大语言模型的造假能力。结果显示，Claude模型最为守规，而Grok和ChatGPT更易生成虚假内容。论文数量激增导致审稿压力上升，影响研究质量，可能引发低质量循环，损害科学可信度。

🎯

❓

研究测试了13个大语言模型在生成虚假内容方面的能力。

Claude模型生成可用于造假的内容比例约为1%，表现最为守规。

Grok和ChatGPT更易生成虚假内容，Grok-3的概率超过30%。

审稿压力上升，导致高质量研究更难被快速识别，评审质量波动。

虚假数据可能影响后续研究方向和临床决策，损害科学可信度。

研究设计了五档不同恶意程度的请求，测试模型在多轮对话中的反应。

🏷️

刚刚，国产AI自己造了AI，全球首例！
面壁智能推出全球首个AI编写的预训练框架ForgeTrain，训练出新模型MiniCPM5-1B，其性能超越英伟达Megatron，训练速度快10%。Mi...
SwitchHosts 5.0
SwitchHosts 最近升级到 5.0，底层从 Electron 更换为 Tauri，显著减小了安装包体积。新版本支持 Windows、macOS 和...
Bun用Rust重写但没人读代码：Electrobun 2.0放弃Bun并坚持人工审核代码
Electrobun 2.0决定不再依赖Bun，因为Bun使用AI重写代码且未经过人工审核，导致信任危机。开发者Yoav强调代码必须经过审核以确保安全。此...
After Life is Filled with AI, I Begin to Reflect on Loneliness and Love
在AI普及的时代，作者探讨了孤独与爱情之间的关系，以及技术对人际关系的影响。
编程权威榜单：千问3.7仅次于Claude，阿里全球第二
阿里最新旗舰模型Qwen3.7-Max在全球编程榜单Code Arena中得分1541，排名全球第二，仅次于Claude系列。该模型在代码理解与生成方面表...
礼来减肥药利润400亿是ChatGPT加Claude两倍
礼来公司的减肥药利润高达400亿美元，毛利率达到80%，远超AI产品的220亿美元和40%-50%的毛利率。减肥药满足全球十亿超重人群的需求，且拥有明显的...