量子位 ·

苹果AI论文太坑了！用GPT写的GT，导致北京程序员通宵加班

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

苹果一篇AI论文因高达30%的错误率引发程序员Lei Yang的不满。他发现论文中的基准测试存在代码错误和数据质量问题，最终导致作者撤稿并道歉。这一事件引发了学术界对数据质量的关注。

🎯

🔎

此次事件突显了数据质量在AI研究中的关键作用。论文中高达30%的错误率不仅影响了研究结果的可靠性，也可能误导后续研究方向。研究人员在使用数据集时，应对数据的来源和质量进行严格审查，以避免类似问题的发生。

Lei Yang的经历揭示了学术审稿过程中的潜在缺陷。尽管有五位审稿人参与评审，但却未能发现论文中的重大错误。这提醒我们，审稿人应更加关注数据集的质量和实验设计，以确保研究成果的可信度。

论文作者在撤稿后承认了审核不周的问题，并表示将认真总结经验教训。这一事件促使学术界反思现有的审核机制，未来可能会加强对数据质量的审查，以提升整体研究水平。

❓

论文中存在高达30%的错误率，基准测试存在代码错误和数据质量问题。

他在适配论文中的benchmark时发现了代码bug，并通过分析错题发现GT错误。

作者承认审核不周，并对直接关闭问题表示歉意，承诺总结经验教训。

引发了对数据质量的关注，提醒研究人员不要盲目信任大公司的研究。

他公开评论指出数据集质量问题，提醒其他研究人员注意。

论文提出了一个基于谜题的视觉推理任务的诊断benchmark。

🏷️