小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

智谱AI的GLM-5架构曝光,采用DeepSeek稀疏注意力机制和多Token预测,参数量达到745B,是GLM-4.7的两倍。新模型Pony Alpha被认为是GLM-5的测试版。智谱股价在两天内上涨60%,预计GLM-5将在2026年春节前发布。

GLM-5架构曝光,智谱两日涨近60%:采用DeepSeek同款稀疏注意力

量子位
量子位 · 2026-02-10T07:59:24Z

阿里巴巴的通义万相实验室开源了AI视频生成模型Wan2.2,支持文生视频和图生视频,参数量达到27B。该模型提升了视频生成的质量和效率,并可在消费级显卡上高效运行,具备电影级美学控制系统,推动AI应用生态的发展。

在线教程丨全球首个 MoE 视频生成模型!阿里 Wan2.2 开源,消费级显卡也能跑出电影级 AI 视频

HyperAI超神经
HyperAI超神经 · 2025-08-01T05:53:34Z
Qwen3-Coder: 在世界中自主编程

今天发布的Qwen3-Coder是最强大的代码模型,参数量达到480B,支持256K token,扩展至1M。它在代理编程和工具使用方面表现出色,并推出了命令行工具Qwen Code,以提升编程效率。

Qwen3-Coder: 在世界中自主编程

Blog on Qwen
Blog on Qwen · 2025-07-22T13:00:00Z
大语言模型推理显存占用简析

大语言模型的显存占用与参数量和精度有关。参数量由模型架构决定,精度可通过量化降低。不同精度(如FP32、FP16、INT8)会影响显存需求,降低精度可以节省显存,但可能影响性能。

大语言模型推理显存占用简析

编译程序
编译程序 · 2025-03-12T12:26:59Z

本文分析了Mixtral 8x7B模型的架构与性能,指出其与GPT-4相似但参数更少。Mixtral采用MoE架构,通过选择两个专家处理每个token,提高了推理速度和效率。该模型在多项基准测试中优于Llama 2 70B和GPT-3.5,并引入GQA机制以降低参数量。总体而言,Mixtral在指令遵循和性能上表现出色。

一文速览DeepSeekMoE:从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)

结构之法 算法之道
结构之法 算法之道 · 2025-01-31T10:18:32Z

DeepSeek V3模型发布,参数量671B,训练成本仅557.6万美元,算力消耗为Llama 3的1/11。性能超越多款顶尖模型,生成速度提升3倍,API价格大幅降低,完全开源,支持FP8和BF16推理,受到广泛关注与测试。

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

量子位
量子位 · 2024-12-27T04:46:27Z

通义千问版QwQ模型发布,参数量32B,开源并支持多个平台。尽管推理能力与o1-mini相当,但回答较冗长,需改进简洁性。测试显示其在逻辑和数学题上表现良好,但偶尔出现错误。整体而言,QwQ的推理效率仍需提升。

Qwen版o1发布即开源!32B参数比肩OpenAI o1-mini,一手实测在此

量子位
量子位 · 2024-11-28T13:25:49Z

该论文介绍了一种名为Convolutional KANs的创新方法,将非线性激活函数集成到卷积中,准确性与标准卷积神经网络相当,但参数量减少了一半。

重新想象线性探测:转移学习中的Kolmogorov-Arnold网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

我们引入了参数量为2.8亿的专用语言模型ClinicalMamba,经过纵向临床笔记巨量预训练。该模型在处理长期病例的复杂信息方面表现优越,并在纵向临床笔记信息提取任务中取得了快速而准确的成果。

BioMamba: 利用 Mamba 进行预训练的生物医学语言表示模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z
profile a deep learning model

本文讨论了程序性能分析的方法,包括计时、内存分析和使用工具。还介绍了评估深度学习模型性能的方法,包括计算量和参数量的计算。提供了FlopCountAnalysis、torch profiler和deepspeed等工具和代码示例。同时介绍了thop和stat等其他工具。

profile a deep learning model

Sekyoro的博客小屋
Sekyoro的博客小屋 · 2024-07-30T07:34:36Z

本论文介绍了一种名为Convolutional KANs的创新方法,将非线性激活函数集成到卷积中,准确性与标准卷积神经网络相当,但参数量减少了一半。

SpectralKAN: 霍尔莫斯彭-阿诺德网络用于高光谱图像变化检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

本文提出了一种基于张量网络的压缩算法,能够显著降低神经网络参数量,提高压缩效果和泛化性能。实验证明,该算法将VGG-16模型的卷积层压缩为仅632个参数的张量网络,并提升在CIFAR-10数据集上的测试准确率。该算法是高效的神经网络参数压缩方案,充分挖掘神经网络的可压缩性。

conv_einsum:卷积张量神经网络中多线性操作的表示和快速计算框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-07T00:00:00Z

研究提出了一种新颖的空时可分图卷积网络(STS-GCN),能够在单一图框架内捕捉动态演化和空间关节交互,长期预测性能提升超过32%,参数量仅为1.7%。

时空 MLP 图网络用于 3D 人体姿势估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码