小红花·文摘

使用 Amazon SageMaker 微调 Baichuan-2 模型

亚马逊AWS官方博客 ·

本文介绍了多种语言模型的开发与优化，包括Xmodel-LM、RakutenAI-7B和Baichuan 2等。这些模型通过低秩适应和指令微调等方法，在多语言任务和情感检测中表现优异，超越了现有基准。研究还探讨了模型的训练动态和数据选择策略，显示出良好的性能和成本效益。

EXAONE 3.0 7.8B 指令优化语言模型

BriefGPT - AI 论文速递 ·

Qwen是一系列大型语言模型，包括基础模型和聊天模型，表现出色。Qwen-Audio是音频语言模型，支持语音聊天和音频分析。Qwen-VL系列提升了多模态人工智能能力。Baichuan 2及其他模型在多个基准测试中表现优异，推动了多语言和多模态研究的发展。

Qwen2 技术报告

BriefGPT - AI 论文速递 ·

Baichuan 2 是一系列大规模多语言模型，包含 70 亿和 130 亿参数，特别在医学和法律领域表现优异。此外，还介绍了 XuanYuan 2.0 和 YAYI 2 模型，它们在多项基准测试中超越了同类开源模型。

初心：1.6B 技术报告

BriefGPT - AI 论文速递 ·

Amazon SageMaker 上的 Baichuan2 模型微调及部署（二）部署部分

亚马逊AWS官方博客 ·

Amazon SageMaker 上的 Baichuan2 模型微调及部署（一）微调部分

亚马逊AWS官方博客 ·

Mistral 7B v0.1 是一个70亿参数的语言模型，采用新技术提高推理效率，表现优于Llama 2 13B。Baichuan 2系列模型在多个基准测试中表现出色，支持医学和法律领域。Skywork-13B和OpenBA模型通过创新训练方法提升性能，并发布开放资源，推动LLM研究。

Breeze-7B 技术报告

BriefGPT - AI 论文速递 ·

MOSS是复旦大学邱锡鹏团队开源的对话语言模型，参数量为160亿，包括基座模型、微调模型和插件增强模型。MOSS还有量化版本，占用显存较少。baichuan-7B是百川智能开发的开源预训练语言模型，基于Transformer结构，训练数据量为1.2万亿，上下文窗口长度为4096。baichuan-7B在分词和数据集方面进行了优化，采用了多种方法提升模型效果和训练吞吐。

baichuan7B/13B的原理与微调：从baichuan的SFT实现到baichuan2的RLHF实现

结构之法算法之道 ·