小红花·文摘

文心ERNIE-4.5-VL视觉语言模型实现了多模态交互，具备强大的图文和视频理解能力，支持100多种语言。其轻量级版本在多个基准测试中表现优异，适应多种场景，能够快速响应基础任务并深度解决复杂问题。

百度大脑 ·

UniToken是一种创新的多模态AI模型，首次在统一框架下实现图文理解与图像生成的优异表现。通过融合连续与离散视觉编码，UniToken有效解决了传统模型的任务干扰和表示割裂问题，提升了性能。该模型已开源，方便研究者复现与开发。

量子位 ·