智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。
阿里巴巴的通义万相实验室开源了AI视频生成模型Wan2.2,支持文生视频和图生视频,参数量达到27B。该模型提升了视频生成的质量和效率,并可在消费级显卡上高效运行,具备电影级美学控制系统,推动AI应用生态的发展。
今天发布的Qwen3-Coder是最强大的代码模型,参数量达到480B,支持256K token,扩展至1M。它在代理编程和工具使用方面表现出色,并推出了命令行工具Qwen Code,以提升编程效率。
大语言模型的显存占用与参数量和精度有关。参数量由模型架构决定,精度可通过量化降低。不同精度(如FP32、FP16、INT8)会影响显存需求,降低精度可以节省显存,但可能影响性能。
本文分析了Mixtral 8x7B模型的架构与性能,指出其与GPT-4相似但参数更少。Mixtral采用MoE架构,通过选择两个专家处理每个token,提高了推理速度和效率。该模型在多项基准测试中优于Llama 2 70B和GPT-3.5,并引入GQA机制以降低参数量。总体而言,Mixtral在指令遵循和性能上表现出色。
DeepSeek V3模型发布,参数量671B,训练成本仅557.6万美元,算力消耗为Llama 3的1/11。性能超越多款顶尖模型,生成速度提升3倍,API价格大幅降低,完全开源,支持FP8和BF16推理,受到广泛关注与测试。
通义千问版QwQ模型发布,参数量32B,开源并支持多个平台。尽管推理能力与o1-mini相当,但回答较冗长,需改进简洁性。测试显示其在逻辑和数学题上表现良好,但偶尔出现错误。整体而言,QwQ的推理效率仍需提升。
该论文介绍了一种名为Convolutional KANs的创新方法,将非线性激活函数集成到卷积中,准确性与标准卷积神经网络相当,但参数量减少了一半。
我们引入了参数量为2.8亿的专用语言模型ClinicalMamba,经过纵向临床笔记巨量预训练。该模型在处理长期病例的复杂信息方面表现优越,并在纵向临床笔记信息提取任务中取得了快速而准确的成果。
本文讨论了程序性能分析的方法,包括计时、内存分析和使用工具。还介绍了评估深度学习模型性能的方法,包括计算量和参数量的计算。提供了FlopCountAnalysis、torch profiler和deepspeed等工具和代码示例。同时介绍了thop和stat等其他工具。
本论文介绍了一种名为Convolutional KANs的创新方法,将非线性激活函数集成到卷积中,准确性与标准卷积神经网络相当,但参数量减少了一半。
本文提出了一种基于张量网络的压缩算法,能够显著降低神经网络参数量,提高压缩效果和泛化性能。实验证明,该算法将VGG-16模型的卷积层压缩为仅632个参数的张量网络,并提升在CIFAR-10数据集上的测试准确率。该算法是高效的神经网络参数压缩方案,充分挖掘神经网络的可压缩性。
研究提出了一种新颖的空时可分图卷积网络(STS-GCN),能够在单一图框架内捕捉动态演化和空间关节交互,长期预测性能提升超过32%,参数量仅为1.7%。
完成下面两步后,将自动完成登录并继续当前操作。