硕鼠的博客站 ·

斯坦福 AI 团队抄袭清华大模型？背后几个有趣的细节。两个印度小哥，拿着阿拉伯学生的作品出来宣传，最终丢了大人。

💡 原文中文，约6500字，阅读约需16分钟。

📝

内容提要

斯坦福大学AI团队被指控抄袭清华大学模型“迷你CPM杠拉玛3V 2.5”，最终承认了抄袭行为。文章介绍了争议背后的人物和技术细节。

🎯

关键要点

斯坦福大学AI团队被指控抄袭清华大学的模型“迷你CPM杠拉玛3V 2.5”。
斯坦福团队最初否认抄袭，称只使用了清华模型的分词器，但最终承认抄袭行为。
事件涉及的主要人物包括南加州大学的穆斯塔法·阿尔贾德里和斯坦福的阿克什·加尔格、悉达多·沙马。
穆斯塔法·阿尔贾德里曾因抄袭教材而受到质疑，显示出其抄袭的历史。
拉玛3是一个开源大语言模型，斯坦福团队的模型与其结合进行图像识别训练。
分词器在模型训练中起到重要作用，但斯坦福团队的解释存在漏洞。
清华大学通过古代竹简的训练验证了抄袭行为，发现两者在识别上高度一致。
高斯噪声在图像识别中用于增强模型的泛化能力，帮助模型处理模糊图像。
开源软件的使用必须遵循规则，抄袭行为对开源文化造成伤害。
中国在图像识别领域的技术实力逐渐受到重视，尤其是在处理中文时的优势。

❓

延伸问答

斯坦福大学AI团队为什么被指控抄袭？

斯坦福大学AI团队被指控抄袭清华大学的模型“迷你CPM杠拉玛3V 2.5”，最初他们否认抄袭，称只使用了清华模型的分词器，但最终承认了抄袭行为。

事件中涉及的主要人物有哪些？

事件中主要人物包括南加州大学的穆斯塔法·阿尔贾德里和斯坦福的阿克什·加尔格、悉达多·沙马。

分词器在模型训练中有什么作用？

分词器在模型训练中用于将文本数据分解成可处理的单元，帮助模型理解和生成语言。

清华大学如何验证抄袭行为？

清华大学通过古代竹简的训练，发现斯坦福团队的模型在识别上与其高度一致，从而验证了抄袭行为。

高斯噪声在图像识别中起什么作用？

高斯噪声用于增强模型的泛化能力，使其能够更好地处理模糊或不清晰的图像。

这起抄袭事件对开源文化有什么影响？

抄袭行为对开源文化造成伤害，强调了遵守开源规则的重要性，损害了开源软件的发展。

🏷️

标签

ai 人物印度大模型抄袭争议斯坦福大学模型清华清华大学

➡️

继续阅读

阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座
随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会...
AI 时代，如何保持个人与团队的顶尖竞争力
智谱开源模型立大功！摆平一起美国AI内乱事件
【TechWeb】7月22日消息，一场本该在沙盒中进行的内部安全测试，演变为全球首例由AI模型自主实施的真实网络攻击。OpenAI在一篇官方博客文章中承认...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...
AI驱动的CLO zFab面料测量套件开放全球供应
（全球TMT 2026年07月22日讯）CLO虚拟时尚宣布，AI驱动的面料数字化解决方案CLO zFab面料测 […]
AI 圈今天最大的瓜：GPT-6 越狱攻击，被 GLM 5.2 揪出了
「GPT-6」为了考试作弊，黑进了别人的服务器#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。