Meta开源了字节潜在变换器(BLT),这是一种使用动态字节处理的LLM架构。BLT模型在推理FLOPS上比Llama 3减少50%,并能更好地处理噪声输入。通过动态分组字节,BLT提升了模型的鲁棒性和多语言理解能力。实验显示,BLT在字符级任务上优于Llama 3,但将Llama 3转换为BLT时性能显著下降。BLT的训练和推理代码已在GitHub上发布。
BLT(字节潜在 Transformer)通过直接建模原始字节流,取代传统的基于 token 的架构,展现出更高效的计算能力和更强的鲁棒性。研究表明,BLT 在处理多样化和噪声输入时表现优越,并在推理过程中节省了高达50%的计算资源,为大型语言模型开辟了新方向。
公开可获得的最好的LLM在律师或律师助理所需的基本文本处理方面表现不佳。通过微调旧的LLM,其在测试集上接近完美的表现,并提高了与法律相关的任务的表现。结果凸显了在LLM训练中需要更多的领域专业知识。
完成下面两步后,将自动完成登录并继续当前操作。