百度于11月11日开源ERNIE-4.5-VL-28B-A3B-Thinking模型,具备3B激活参数,性能媲美顶级大模型。该模型在视觉语言理解、文档解析和跨模态推理方面表现优异,支持“图像思考”等创新功能,已在多个平台发布,适合商业使用。
谷歌开源的生成性人工智能模型Gemma 3具备视觉语言理解、长上下文处理和多语言能力。新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器,以及改进的图像处理算法。Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。
Kimi团队发布的Kimi-VL是一个高效的开源多模态模型,采用混合专家架构和长上下文窗口,显著提升视觉语言理解能力,超越多个闭源模型,标志着开源领域的重要突破。
Helix是首款高速控制的人形机器人,能够灵活应对复杂家庭场景。通过结合快慢系统,Helix实现高效的视觉语言理解与动作执行,支持自然语言指令,提升操作的泛化能力和效率。
完成下面两步后,将自动完成登录并继续当前操作。