多模态后训练反常识:长思维链SFT和RL的协同困境

🏷️

标签

➡️

继续阅读