小红花·文摘 - 小红花技术领袖俱乐部

多模态大模型在视觉推理能力评估中表现不佳，o3仅为25.8%，远低于人类的82.3%。新基准测试RBench-V揭示了模型在图像生成和理解方面的不足，强调了改进方向，如多模态思维链等新方法。

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

量子位 ·

三角形ABC的面积是60平方厘米，BC=2BD，AE=ED求阴影部分的面积和

三角形ABC的面积是60平方厘米，BC=2BD，AE=ED求阴影部分的面积和

愆伏 ·