别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

🏷️

标签