刘壮教授在访谈中指出,AI领域的最大瓶颈是记忆,而非能力。他认为架构选择不如数据规模和计算能力重要,现有数据集的多样性低于预期。大语言模型在语言空间有世界模型,但在视觉空间尚未实现。尽管AI在低层次任务上表现良好,但在自主科研和复杂问题上仍需人类参与。
刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。
抱歉,提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
何恺明与Yann LeCun合作提出了一种新型Transformer架构Dynamic Tanh(DyT),可替代传统归一化层。DyT通过可学习参数实现输入的非线性压缩,实验结果显示其在多项任务中表现优于或等同于传统方法,且无需调整超参数,具有提升训练和推理速度的潜力。
多模态大模型(MLLM)在视觉理解领域取得进展,研究者提出了视觉预测指令调整(VPiT),有效结合视觉理解与生成。通过微调,MetaMorph模型展现出强大的视觉生成能力,强调理解数据对生成性能的重要性,发现理解与生成能力相辅相成。
刘壮将于2025年9月成为普林斯顿大学助理教授。他开发了DenseNet和ConvNeXt,在深度学习和计算机视觉领域具有重要影响。他曾就读于清华大学和加州大学伯克利分校,并在Meta AI Research工作。他的研究挑战传统观念,近期关注数据集偏差问题。未来,他将在学术界探索新方向。
完成下面两步后,将自动完成登录并继续当前操作。