阿里云Qwen推出首个开源长文本模型,支持1M Tokens,性能超越GPT-4o-mini。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,处理长文本速度提升近7倍,适用于复杂任务。模型采用长上下文训练、长度外推和稀疏注意力机制,推理速度显著提高。
360-LLaMA-Factory是基于LLaMA-Factory的开源框架,支持序列并行,简化长序列的后训练。用户只需增加一个参数,经过验证效果良好,适合长文本模型的研究与开发。
完成下面两步后,将自动完成登录并继续当前操作。