本研究提出了MMVU基准,用于评估基础模型在视频理解中的表现。该基准通过专家标注的问题,推动模型应对复杂推理需求。尽管现有模型有所提升,但仍未达到人类专家水平。
知名学者Andrej Karpathy认为,人工智能的对话能力被夸大,实际上是模仿人类标注数据的结果。他质疑RLHF的有效性,认为其只能达到专家水平,而非真正的超人。他提出基于规则的奖励(RBR)可能为大模型性能提升提供新思路。
完成下面两步后,将自动完成登录并继续当前操作。