小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Supermicro推出一系列搭载Arm AGI CPU的AI解决方案

Supermicro推出搭载Arm AGI CPU的AI解决方案,旨在支持代理式AI的快速扩展。新平台包括风冷和液冷服务器,优化计算性能与能效,降低能源需求,提升AI在数据中心的应用。Arm AGI CPU具备高密度136核心微架构,提供高内存带宽和优化的内存访问,支持可扩展的基础设施。

Supermicro推出一系列搭载Arm AGI CPU的AI解决方案

全球TMT-美通国际
全球TMT-美通国际 · 2026-06-08T10:05:05Z
本地 NVMe 存储高达 22.8TB 的 Amazon EC2 C8id、M8id 和 R8id 实例正式发布

亚马逊推出了新的EC2 C8id、M8id和R8id实例,基于NVMe SSD存储,计算性能提高43%,内存带宽增加3.3倍,适合计算和内存密集型工作负载,支持更大规模配置,现已在多个AWS区域可用。

本地 NVMe 存储高达 22.8TB 的 Amazon EC2 C8id、M8id 和 R8id 实例正式发布

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-02-04T08:43:00Z
Trainium3 UltraServers正式可用,由亚马逊云科技首款3nm AI芯片驱动

亚马逊云科技在2025 re:Invent大会上推出Trn3 UltraServers,搭载3nm AI芯片,提供4.4倍计算性能和4倍能效提升,帮助企业高效训练和部署AI模型,客户训练与推理成本降低50%。亚马逊还在研发Trainium4,以实现更高性能和扩展能力。

Trainium3 UltraServers正式可用,由亚马逊云科技首款3nm AI芯片驱动

全球TMT-美通国际
全球TMT-美通国际 · 2025-12-04T07:17:29Z
活动预告丨上海创智/TileAI/华为/先进编译实验室齐聚上海,TVM/TileRT/PyPTO/Triton各显神通

随着AI模型规模的扩大,AI编译器成为硬件与应用之间的关键枢纽,提升计算性能和资源利用率。12月27日,第8期Meet AI Compiler技术沙龙将在上海举行,专家将分享软件栈设计、算子开发及性能优化等内容,探讨低延迟大模型推理和融合算子开发等技术。欢迎报名参与。

活动预告丨上海创智/TileAI/华为/先进编译实验室齐聚上海,TVM/TileRT/PyPTO/Triton各显神通

HyperAI超神经
HyperAI超神经 · 2025-12-03T06:55:01Z
元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度

在2025人工智能计算大会上,浪潮信息发布了基于元脑SD200超节点AI服务器的DeepSeek R1大模型,token生成速度达到8.9毫秒,创下国内最快记录。该服务器支持64张本土AI芯片,优化了计算框架和通信库,实现低延迟推理,并通过预填充-解码分离软件提升计算性能。

元脑SD200超节点AI服务器助力DeepSeek R1创造国内大模型最快token生成速度

全球TMT-美通国际
全球TMT-美通国际 · 2025-11-10T10:01:19Z
时隔 9 年,黄仁勋再次给马斯克送货上门,跳票大半年的 AI 个人超算终于来了

黄仁勋将NVIDIA DGX Spark个人AI超级计算机交给马斯克,标志着AI超算时代的来临。DGX Spark结合Grace CPU和Blackwell GPU,提供高达1 Petaflop的计算性能,适合大模型运行。尽管价格较高,但其强大性能和软件生态吸引了AI开发者。

时隔 9 年,黄仁勋再次给马斯克送货上门,跳票大半年的 AI 个人超算终于来了

爱范儿
爱范儿 · 2025-10-14T04:22:08Z
使用Rust加速Python:实用指南

本文介绍了如何通过pyo3库使用Rust优化Python的计算性能,尤其是在机器学习算法中。Rust编写的扩展模块显著提高了计算效率,测试结果表明其速度远超Python,适合处理大量计算任务。

使用Rust加速Python:实用指南

DEV Community
DEV Community · 2025-05-01T04:00:09Z
谷歌云推出搭载NVIDIA Blackwell GPU的A4虚拟机,专为人工智能工作负载设计

谷歌云推出新款A4虚拟机,搭载NVIDIA Blackwell B200 GPU,满足人工智能工作负载需求。A4虚拟机提供高达2.25倍的计算性能提升,支持大规模AI模型训练和推理,助力AI应用发展,提升NVIDIA在云基础设施市场的地位。

谷歌云推出搭载NVIDIA Blackwell GPU的A4虚拟机,专为人工智能工作负载设计

InfoQ
InfoQ · 2025-03-21T10:00:00Z

英伟达在人工智能领域领先,推出了升级版AI芯片架构Blackwell Ultra,提升了推理能力。新架构Vera Rubin实现了CPU与GPU的深度整合,显著增强了计算性能,推动了AI工厂概念的发展。

股价止跌失败,黄仁勋透露Blackwell Ultra和Vera Rubin上市时间,推理能力成重点

HyperAI超神经
HyperAI超神经 · 2025-03-19T08:00:39Z
并行处理的GPU计算创新替代方案

并行处理是现代计算的基础,支持多任务同时执行。除了GPU,多核CPU、FPGA、ASIC、分布式计算、量子计算和神经形态计算等替代方案也在迅速发展,各具优势和应用场景,提升了计算性能和效率。

并行处理的GPU计算创新替代方案

DEV Community
DEV Community · 2025-02-24T06:16:16Z

本研究推出ABCI 3.0,整合6128个NVIDIA H200 GPU及全闪存存储,解决日本AI基础设施的处理和存储不足,提升计算性能,助力生成式AI研发与人才培养。

ABCI 3.0: The Evolution of Japan's Leading Artificial Intelligence Infrastructure

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本文介绍了一种基于一次训练(OFA)网络的方法,提出了动态可整合网络DS-Net,通过动态调整卷积滤波器数量提高硬件效率。实验结果显示,DS-Net在计算性能上优于ResNet-50和MobileNet。此外,提出了“网络瘦身”方案,通过通道级稀疏性简化深度卷积神经网络,降低计算成本而不影响准确度。

DεpS: 延迟 ε-收缩以加速全面训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z
适用于大型内存数据库的 Amazon EC2 大内存 U7i 实例

亚马逊弹性计算云(Amazon EC2)推出了U7i实例,提供高达32TiB的DDR5内存和896个vCPU。这些实例由定制的第四代英特尔至强可扩展处理器(Sapphire Rapids)驱动,旨在支持大型内存数据库,如SAP HANA、Oracle和SQL Server。U7i实例在所有领先的云提供商提供的SAP认证虚拟实例中,提供了最佳的性价比和最高的内存和计算能力。与上一代EC2实例相比,U7i实例提供了改进的计算性能、内存性能和EBS带宽。它们是SAP认证的,可以运行各种SAP应用程序。U7i实例在多个AWS区域可用,并支持各种操作系统。稍后将推出更大的实例,增加计算能力。

适用于大型内存数据库的 Amazon EC2 大内存 U7i 实例

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-05-30T00:42:16Z
AWS Graviton3 加速 Flink 作业执行:Benchmark

AWS推出Graviton3,使用ARM Neoverse内核定制设计的ARM架构,提高计算性能25%。在中国区域推出C7g、M7g和R7g实例。比较了5种相同配置的EC2实例在执行Nexmark Benchmark时的性能和成本。

AWS Graviton3 加速 Flink 作业执行:Benchmark

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-04-16T03:22:28Z
roofline model

roofline模型描述计算性能与运算强度和每秒浮点运算次数的关系。优化手段可分为提高算力和提高带宽两类。Memory-bound任务应优化内存带宽,Compute-bound任务应优化算力。

roofline model

plus studio
plus studio · 2024-04-10T23:28:00Z
新产品 — 第七代内存优化型 Amazon EC2 实例(R7i)

亚马逊 AWS 推出内存优化型 Amazon EC2 R7i 实例,适合内存密集型工作负载,提供最高的计算性能。R7i 实例提供 11 种大小可供选择,最大实例大小为 192 个 vCPU 和 1536GiB 的内存。购买选项包括按需型实例、预留实例、节省计划和竞价型实例等形式。

新产品 — 第七代内存优化型 Amazon EC2 实例(R7i)

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-10-18T02:41:35Z
TensorRT中的int8量化

本文介绍了Intel针对卷积神经网络(CNN)的int8量化方案,旨在优化计算性能。该方案通过将浮点数转换为int8,提升卷积操作速度。主要方法包括直接转换、基于数据校准和训练微调。TensorRT采用线性量化,简化计算过程并使用CUDA加速。量化的关键在于确定缩放因子,以减少信息损失,确保量化前后的数据分布尽可能接近。

TensorRT中的int8量化

李文举
李文举 · 2022-03-04T00:20:08Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码