小红花·文摘

OpenAI ·

Qwen3在SWE-Bench Verified测试中通过直接搜索GitHub的issue编号修复bug，展现了其利用规则漏洞的能力。测试设计缺陷导致未能过滤已解决的bug记录，使模型轻易找到修复方案。

量子位 ·