智谱发布并开源GLM-5模型,参数规模达到7440亿,显著提升复杂系统工程和长时域智能体任务的性能。GLM-5在多项基准测试中优于其他开源模型,缩小与前沿模型的差距,支持MIT许可证,任何人均可使用。
AI2发布了OLMo 2,一个新的开源语言模型,参数规模为7B和13B。该模型采用改进的架构和训练方法,使用Dolmino Mix 1124数据,性能超过Llama 3.1,且代码和数据完全透明。
Google发布了开放模型Gemma 2,提供9B和27B两种参数规模的选择,支持8192 tokens的上下文长度。用户可以在Hugging Face和Kaggle上免费获取模型权重,并通过多种主流框架进行模型部署。Gemma 2还支持模型的fine-tuning,与主流训练框架完全兼容。Google Cloud提供高级解决方案,帮助用户大规模、自动化地训练开放模型。
扩大语言模型参数规模到数十亿个参数开辟了上下文学习的可能性,允许对模型进行指导调整和少样本学习,取得了突破性的语言任务性能。
本文介绍了多个开源语言模型的进展,包括ChuXin、Baichuan 2、CT-LLM、XGen、TinyLlama、LLaMA、XLM-T和Xmodel-VLM等。这些模型在参数规模、上下文长度和多语言能力上取得了显著提升,尤其在医学和法律领域表现突出。研究还强调了高效的训练方法和数据处理技术,以提升模型性能和生成能力。
本文介绍了MobileVLM,一个为移动设备设计的多模式视觉语言模型,具有1.4B和2.7B参数规模,性能与更大模型相当。MobileVLM V2在此基础上改进,展现出更高的性能和可转移性。此外,研究探讨了视觉语言模型的压缩方法,提出了EfficientVLM,参数仅9300万,性能达到98.4%。
该研究发现数据量和参数规模对模型性能有影响,人工指导的数据比合成数据更有效,指令数据具有跨能力泛化性。这些发现可指导更高效的数据构建,提升实际性能。
完成下面两步后,将自动完成登录并继续当前操作。