多模态AI因能处理文本、图像、音频和视频而备受关注。开源模型如Aria、Leopard、CogVLM、LLaVA和xGen-MM迅速崛起,提供更高的透明度和适应性。Aria是首个开源混合专家模型,Leopard专注于文本丰富的图像任务,CogVLM用于视觉问答,LLaVA可创建高级聊天机器人,xGen-MM处理图文输入。尽管存在“开放洗涤”的争议,真正的开源系统仍有需求。
完成下面两步后,将自动完成登录并继续当前操作。