Zyphra发布了Zamba2-VL系列开放视觉语言模型,包含12亿、27亿和70亿参数。该模型采用混合SSM-Transformer架构,支持图像与文本的理解与关联,推理速度快,适用于文档提取和库存盘点等场景。尽管在知识推理方面表现不如大型模型,但在视觉计数和文档理解上具有优势。模型权重和推理代码已公开。
Zonos-v0.1 是一款新发布的高保真文本转语音 (TTS) 模型,支持多语言,基于 200,000 小时语音数据训练,能够生成自然且富有表现力的语音,用户可控制音调和情感,优化了实时性能,适用于内容创作和辅助技术等领域。
完成下面两步后,将自动完成登录并继续当前操作。