小红花·文摘 - 小红花技术领袖俱乐部

智谱AI的GLM-5架构曝光，采用DeepSeek稀疏注意力机制和多Token预测，参数量达到745B，是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%，预计GLM-5将在2026年春节前发布。

GLM-5架构曝光，智谱两日涨近60%：采用DeepSeek同款稀疏注意力

量子位 ·

阿里巴巴的通义万相实验室开源了AI视频生成模型Wan2.2，支持文生视频和图生视频，参数量达到27B。该模型提升了视频生成的质量和效率，并可在消费级显卡上高效运行，具备电影级美学控制系统，推动AI应用生态的发展。

在线教程丨全球首个 MoE 视频生成模型！阿里 Wan2.2 开源，消费级显卡也能跑出电影级 AI 视频

HyperAI超神经 ·

Qwen3-Coder: 在世界中自主编程

Qwen3-Coder: 在世界中自主编程

Blog on Qwen ·

大语言模型推理显存占用简析

大语言模型推理显存占用简析

编译程序 ·

本文分析了Mixtral 8x7B模型的架构与性能，指出其与GPT-4相似但参数更少。Mixtral采用MoE架构，通过选择两个专家处理每个token，提高了推理速度和效率。该模型在多项基准测试中优于Llama 2 70B和GPT-3.5，并引入GQA机制以降低参数量。总体而言，Mixtral在指令遵循和性能上表现出色。

一文速览DeepSeekMoE：从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)

结构之法算法之道 ·

DeepSeek V3模型发布，参数量671B，训练成本仅557.6万美元，算力消耗为Llama 3的1/11。性能超越多款顶尖模型，生成速度提升3倍，API价格大幅降低，完全开源，支持FP8和BF16推理，受到广泛关注与测试。

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

量子位 ·

通义千问版QwQ模型发布，参数量32B，开源并支持多个平台。尽管推理能力与o1-mini相当，但回答较冗长，需改进简洁性。测试显示其在逻辑和数学题上表现良好，但偶尔出现错误。整体而言，QwQ的推理效率仍需提升。

Qwen版o1发布即开源！32B参数比肩OpenAI o1-mini，一手实测在此

量子位 ·

该论文介绍了一种名为Convolutional KANs的创新方法，将非线性激活函数集成到卷积中，准确性与标准卷积神经网络相当，但参数量减少了一半。

重新想象线性探测：转移学习中的Kolmogorov-Arnold网络

BriefGPT - AI 论文速递 ·

我们引入了参数量为2.8亿的专用语言模型ClinicalMamba，经过纵向临床笔记巨量预训练。该模型在处理长期病例的复杂信息方面表现优越，并在纵向临床笔记信息提取任务中取得了快速而准确的成果。

BioMamba: 利用 Mamba 进行预训练的生物医学语言表示模型

BriefGPT - AI 论文速递 ·

profile a deep learning model

Sekyoro的博客小屋 ·

本论文介绍了一种名为Convolutional KANs的创新方法，将非线性激活函数集成到卷积中，准确性与标准卷积神经网络相当，但参数量减少了一半。

SpectralKAN: 霍尔莫斯彭－阿诺德网络用于高光谱图像变化检测

BriefGPT - AI 论文速递 ·

本文提出了一种基于张量网络的压缩算法，能够显著降低神经网络参数量，提高压缩效果和泛化性能。实验证明，该算法将VGG-16模型的卷积层压缩为仅632个参数的张量网络，并提升在CIFAR-10数据集上的测试准确率。该算法是高效的神经网络参数压缩方案，充分挖掘神经网络的可压缩性。

conv_einsum：卷积张量神经网络中多线性操作的表示和快速计算框架

BriefGPT - AI 论文速递 ·

研究提出了一种新颖的空时可分图卷积网络(STS-GCN)，能够在单一图框架内捕捉动态演化和空间关节交互，长期预测性能提升超过32%，参数量仅为1.7%。

时空 MLP 图网络用于 3D 人体姿势估计

BriefGPT - AI 论文速递 ·