小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Google Axion实例现已在Elastic Cloud托管上可用

Elastic Cloud推出了基于Google Axion的CPU优化Arm硬件配置,性能提升达25%。该配置适用于搜索、监控和安全工作负载,用户可轻松创建或迁移部署,享受更高的计算效率和成本效益。

Google Axion实例现已在Elastic Cloud托管上可用

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2026-04-23T00:00:00Z
推理速度提升3倍,多伦多大学等提出dnaHNet,基因组学习计算成本降低近4倍

dnaHNet模型是一种新型基因组学习模型,通过动态分块机制自我学习序列结构,显著提升了计算效率和表达能力。在变异效应预测和基因必需性分类等任务中表现优异,计算成本降低3.89倍,为基因组解析提供了新思路。

推理速度提升3倍,多伦多大学等提出dnaHNet,基因组学习计算成本降低近4倍

HyperAI超神经
HyperAI超神经 · 2026-04-20T07:12:26Z
英伟达最强B200算力浪费60%!普林斯顿团队出手,利用率升至71%

普林斯顿团队发现英伟达B200 GPU因软硬件不匹配导致60%算力浪费,利用率仅为20%-30%。经过FlashAttention-4算法优化后,利用率提升至71%。该算法通过改进指数运算和内存管理,显著提高计算效率,并将编译速度提升至30倍。

英伟达最强B200算力浪费60%!普林斯顿团队出手,利用率升至71%

量子位
量子位 · 2026-03-18T00:31:26Z
复盘AI芯片技术路线 专用芯片复刻矿机历程

Taalas公司推出了一种新型AI硬件,将Llama 3.1模型直接固化在芯片中,显著降低输出延迟并提升计算效率。这种“模型即硬件”的设计克服了传统GPU的内存瓶颈,适用于复杂决策和实时推理,展现出优越的能效和成本优势。

复盘AI芯片技术路线 专用芯片复刻矿机历程

dotNET跨平台
dotNET跨平台 · 2026-03-07T00:01:23Z
20秒完成15天预报,欧洲科研团队提出高分辨率区域海洋预报模型SeaCast

芬兰和意大利的研究团队开发了基于图神经网络的SeaCast模型,能够快速进行高分辨率海洋预报,显著提高计算效率和预报准确性,优于传统的MedFS模型。该模型通过历史数据训练,满足区域海洋预报需求,推动了人工智能在海洋预报中的应用。

20秒完成15天预报,欧洲科研团队提出高分辨率区域海洋预报模型SeaCast

HyperAI超神经
HyperAI超神经 · 2026-02-27T06:02:25Z
内存占用最高降低75%,美国能源部科学家提出跨通道分层聚合方法D-CHAG,实现极大规模模型多通道数据集运行

研究人员提出了一种分布式跨通道分层聚合方法(D-CHAG),有效解决了多通道数据集的内存瓶颈和计算效率问题。该方法在高光谱成像和天气预测任务中表现优异,内存占用降低75%,吞吐量提升超过2倍。

内存占用最高降低75%,美国能源部科学家提出跨通道分层聚合方法D-CHAG,实现极大规模模型多通道数据集运行

HyperAI超神经
HyperAI超神经 · 2026-02-11T08:16:45Z
推动vLLM WideEP和大规模服务在Blackwell平台上的成熟(第一部分)

vLLM团队在NVIDIA GB200平台上优化性能,实现26.2K预填TPGS和10.1K解码TPGS,较H200提升3-5倍。通过低精度操作、内核融合和权重卸载等技术,显著提升计算效率和带宽利用率。

推动vLLM WideEP和大规模服务在Blackwell平台上的成熟(第一部分)

vLLM Blog
vLLM Blog · 2026-02-03T00:00:00Z
MoE比你想象的更强大:基于RoE的超并行推理扩展

本文介绍了一种名为RoE的超并行推理框架,旨在提升大语言模型(LLM)在标记级别的预测质量。RoE通过动态组合多个专家模型,利用受控随机性为每个标记采样多个专家,从而实现更准确的预测。此外,该方法在计算效率上进行了优化,使得7B MoE模型的性能可与10.5B MoE模型相媲美,同时减少了30%的计算需求。

MoE比你想象的更强大:基于RoE的超并行推理扩展

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-12T00:00:00Z
谷歌的张量处理单元(TPU)是如何工作的?

TPU(张量处理单元)是谷歌为深度学习设计的专用芯片,采用脉动阵列结构,显著提升计算效率。通过减少数据移动和优化矩阵运算,TPU解决了计算瓶颈,支持大规模语言模型的训练与推理。

谷歌的张量处理单元(TPU)是如何工作的?

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-05T16:31:12Z

谷歌推出第七代TPU Ironwood,专为AI推理设计,性能提升4倍。该芯片可连接9216个芯片,优化计算效率,推动硬件与AI研究的协同发展。

关于Ironwood,我们最新的TPU,有三件事你需要知道

The Keyword
The Keyword · 2025-11-25T16:00:00Z
提升Python代码性能的10个聪明技巧

本文介绍了10种提升Python代码性能的方法,包括使用集合进行成员测试、避免不必要的复制、使用__slots__节省内存和利用数学函数提高计算效率等。这些策略旨在在保持Python简洁性的同时,显著提升代码执行速度。

提升Python代码性能的10个聪明技巧

The JetBrains Blog
The JetBrains Blog · 2025-11-05T10:50:20Z
基于自适应空间标记化的可变形物体交互学习

本文提出了一种自适应空间标记化(AST)方法,旨在高效模拟可变形物体之间的交互。该方法通过将模拟空间划分为网格单元,并将非结构化网格映射到结构化网格上,从而提高计算效率。实验结果表明,该方法在处理超过10万个节点的大规模网格时,显著优于现有技术,并提供了一个新的大规模数据集以支持未来研究。

基于自适应空间标记化的可变形物体交互学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-04T00:00:00Z
重新思考JEPA:基于冻结教师的计算高效视频自监督学习

本文介绍了一种新的视频表示学习方法SALT(静态教师不对称潜在训练),通过冻结教师模型提高计算效率。该方法分为两个阶段:首先训练目标编码器进行像素重建,然后训练学生模型预测教师的潜在表示。SALT在多个基准测试中表现优于现有方法,并在计算资源分配上更为优化,显示出学生模型对教师质量的鲁棒性,成为EMA自蒸馏的高效替代方案。

重新思考JEPA:基于冻结教师的计算高效视频自监督学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-08T00:00:00Z

DeepSeek 的闪电索引器通过计算索引分数提高模型效率,解决了全书阅读的 $O(L^2)$ 复杂度问题。它筛选出与当前查询相关的 Top-k token,将注意力复杂度降低到 $O(L k)$,显著提升计算效率。

deepseek-v3.2-exp的闪电索引器

鸟窝
鸟窝 · 2025-09-30T16:00:00Z

浪潮信息推出元脑SD200和HC1000 AI服务器,推理速度达到8.9ms,百万Token成本降至1元。新架构提升计算效率,满足智能时代对速度和成本的需求,推动AI产业化发展。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

量子位
量子位 · 2025-09-29T05:54:13Z
Triton Flash Attention 内核详解:前向传播

本文探讨了Triton实现的FlashAttention机制,强调其在GPU内存管理上的创新。FlashAttention通过分块处理输入,减少内存I/O瓶颈,提升计算效率。文章介绍了核心设计,包括在线softmax方法和相对位置偏差的引入,展示了在高性能GPU内核中实现高效注意力机制的方式。

Triton Flash Attention 内核详解:前向传播

Nathan Chen
Nathan Chen · 2025-09-24T00:00:00Z

模型量化是将高精度模型转为低精度模型的过程,能有效降低显存占用并提升推理速度。常见的量化方法有GGUF、GPTQ和AWQ,适用于不同场景,优化计算效率和存储需求。

什么是模型量化

陈少文的博客
陈少文的博客 · 2025-09-06T00:00:00Z

停用词是自然语言处理中的重要概念,指那些频率高但语义贡献小的词汇。在预处理阶段过滤停用词可以提高计算效率、聚焦关键信息并优化存储。WordPress增加了停用词功能,以提升搜索结果的相关性。

给 WPJAM「搜索优化」插件增加停用词功能,进一步增强 WordPress 搜索效率

WordPress 果酱
WordPress 果酱 · 2025-08-20T14:29:56Z

是石科技成立于2021年,专注于高性能计算与AI算力优化,已获得三次戈登·贝尔奖。创始人闫博文认为未来算力将有闲置,因此不囤算力。公司与多家大模型企业合作,提供算力及优化服务,致力于提高计算效率和降低成本。

狂拿大模型明星订单,一家清华系HPC-AI Infra公司浮出水面

量子位
量子位 · 2025-07-29T05:46:11Z

谷歌推出的新架构Mixture-of-Recursions(MoR)实现了推理速度提升2倍,内存减少50%。该架构通过统一参数共享和自适应计算,降低了计算和内存成本,同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer,展现出更高的计算效率和可扩展性。

Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍

量子位
量子位 · 2025-07-17T09:25:55Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码