小红花·文摘

TinyLlama是一款参数只有1.1B的小型强大模型，4比特版本只需550M内存运行。它可用于大型模型的speculative decoding、边缘装置上的离线实时机器翻译和游戏中的实时对话生成。目前正在训练过程中，使用16块A100-40G的GPU，在90天内完成3万亿tokens的训练。