智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。
阿里巴巴的通义万相实验室开源了AI视频生成模型Wan2.2,支持文生视频和图生视频,参数量达到27B。该模型提升了视频生成的质量和效率,并可在消费级显卡上高效运行,具备电影级美学控制系统,推动AI应用生态的发展。
今天发布的Qwen3-Coder是最强大的代码模型,参数量达到480B,支持256K token,扩展至1M。它在代理编程和工具使用方面表现出色,并推出了命令行工具Qwen Code,以提升编程效率。
大语言模型的显存占用与参数量和精度有关。参数量由模型架构决定,精度可通过量化降低。不同精度(如FP32、FP16、INT8)会影响显存需求,降低精度可以节省显存,但可能影响性能。
本文分析了Mixtral 8x7B模型的架构与性能,指出其与GPT-4相似但参数更少。Mixtral采用MoE架构,通过选择两个专家处理每个token,提高了推理速度和效率。该模型在多项基准测试中优于Llama 2 70B和GPT-3.5,并引入GQA机制以降低参数量。总体而言,Mixtral在指令遵循和性能上表现出色。
DeepSeek V3模型发布,参数量671B,训练成本仅557.6万美元,算力消耗为Llama 3的1/11。性能超越多款顶尖模型,生成速度提升3倍,API价格大幅降低,完全开源,支持FP8和BF16推理,受到广泛关注与测试。
通义千问版QwQ模型发布,参数量32B,开源并支持多个平台。尽管推理能力与o1-mini相当,但回答较冗长,需改进简洁性。测试显示其在逻辑和数学题上表现良好,但偶尔出现错误。整体而言,QwQ的推理效率仍需提升。
本文探讨了知识蒸馏技术在语言模型和语音识别中的应用,提出多种方法以提高模型性能并减少参数量。研究表明,知识蒸馏能有效缩小大型模型与小型模型之间的性能差距,并在多个任务上取得优异成绩。
本文讨论了程序性能分析的方法,包括计时、内存分析和使用工具。还介绍了评估深度学习模型性能的方法,包括计算量和参数量的计算。提供了FlopCountAnalysis、torch profiler和deepspeed等工具和代码示例。同时介绍了thop和stat等其他工具。
本文提出了一种基于张量网络的压缩算法,能够显著降低神经网络参数量,提高压缩效果和泛化性能。实验证明,该算法将VGG-16模型的卷积层压缩为仅632个参数的张量网络,并提升在CIFAR-10数据集上的测试准确率。该算法是高效的神经网络参数压缩方案,充分挖掘神经网络的可压缩性。
研究提出了一种新颖的空时可分图卷积网络(STS-GCN),能够在单一图框架内捕捉动态演化和空间关节交互,长期预测性能提升超过32%,参数量仅为1.7%。
完成下面两步后,将自动完成登录并继续当前操作。