小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
所有基础设施都是AI基础设施

未来技术基础设施将转向AI,企业需优化硬件以支持AI工作负载。AI工作负载依赖CPU和GPU的协作,复杂性增加。数据中心设计需解决电力和空间不足,同时满足数据主权要求。开放源代码平台如k0rdent将帮助企业灵活应对AI需求,确保可观察性和控制权。成功企业将重视可管理性、可观察性和开放性。

所有基础设施都是AI基础设施

The New Stack
The New Stack · 2025-09-24T14:00:31Z

华为开源Omni-Infer项目,提供超大规模MoE推理架构、技术和代码,旨在加速AI推理。该项目支持PD分离部署,优化硬件使用,兼容主流推理框架,降低软件维护成本,推动开源生态发展。

华为又开源了个大的:超大规模MoE推理秘籍

量子位
量子位 · 2025-07-01T05:41:36Z

Apache TVM是一个支持CPU和GPU等加速芯片的深度学习编译框架。本文介绍如何在TVM中编写自定义IR转换pass,以满足专用硬件的需求,包含向量加法示例及IR节点的分析与转换方法。

【TVM 教程】编写自定义 Pass

HyperAI超神经
HyperAI超神经 · 2025-06-03T02:53:25Z

本研究提出了一种低功耗流式语音增强加速器,通过模型压缩和硬件优化,模型大小减少93.9%,实时推理功耗仅为8.08毫瓦,显著提升了效率和可用性。

A Low-Power Streaming Speech Enhancement Accelerator for Edge Devices

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z
從入門到精通:新手友善的AI編譯器介紹

随着人工智能技术的发展,AI 编译器逐渐受到重视。它将高阶 AI 模型转化为适合特定硬件的优化代码,提高计算效率。AI 编译器通过优化计算图和资源分配,解决了直接执行模型时无法充分利用硬件的问题,专注于深度学习模型的需求,支持多种硬件架构,降低开发复杂度,提升模型部署效率。

從入門到精通:新手友善的AI編譯器介紹

1010Code
1010Code · 2024-11-12T16:00:00Z

本研究针对FPGA实现的图卷积神经网络(GCNN)可扩展性问题,提出了优化硬件模块和双步卷积方法,显著降低了查找表的使用量,从而提高了GCNN在复杂图和动态场景中的可扩展性。

Increasing the Scalability of Graph Convolution for FPGA-Implemented Event-Driven Vision

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z
为高效视觉人工智能系统创建定制编程语言

麻省理工学院副教授乔纳森·拉根-凯利专注于优化计算机图形和图像处理,致力于开发高性能编程语言和机器学习技术。他的研究旨在提高新硬件在图像处理和人工智能领域的计算效率,通过自动化编译和机器学习优化程序,以适应复杂的硬件环境。

为高效视觉人工智能系统创建定制编程语言

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2024-05-03T20:10:00Z

这篇文章总结了关于TiDB数据库性能优化的方法,包括硬件和网络优化、SQL优化、查询优化、统计信息优化、数据库应用优化和TiDB集群优化等。方法涵盖了硬件优化、索引优化、查询语句优化、缓存技术、分表策略、批量操作和参数调整。文章还提到了dstat、EXPLAIN、TiDB Dashboard和Grafana等工具和技术。

TiDB 社区智慧合集丨解码 TiDB 性能谜题:让你的数据库发挥最强动力!

六虎
六虎 · 2024-04-06T04:52:21Z

这篇文章总结了关于TiDB数据库性能优化的方法,包括硬件和网络优化、SQL优化、查询优化、统计信息优化、数据库应用优化和TiDB集群优化等方面。文章提供了具体的优化方法和建议,为读者提供有价值的信息和经验。

TiDB 社区智慧合集丨解码 TiDB 性能谜题:让你的数据库发挥最强动力!

TiDB_PingCAP 的博客
TiDB_PingCAP 的博客 · 2024-04-05T14:31:53Z

本研究介绍了Sequoia算法,用于加速大型语言模型的推理。通过动态规划算法找到最佳树结构,采样和验证方法实现鲁棒的推测性能,通过自动选择硬件平台的标记树大小和深度来优化硬件感知的树优化器。在A100上,解码速度提高了4.04倍、3.84倍和2.37倍,并在L40上将卸载速度提高了10.33倍。

Sequoia:可伸缩、稳健且硬件感知的推测解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本文提出了一种针对卷积神经网络的硬件优化方案,通过特定优化法提高性能,减少内存占用和外部内存访问需求,缓解CPU压力,提升处理速度。

跨层优化的容错深度学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-21T00:00:00Z

本文介绍了一个硬件优化的数据流架构,用于将计算图形的高阶梯度转化为硬件优化。该架构通过设计一个使用FIFO流和优化计算内核库的数据流架构,并提出一个编译器来提取和优化计算图形,以实现最大吞吐量,同时确保无死锁操作,并输出FPGA实现的高级综合(HLS)代码。实验结果显示,该架构实现了1.8-4.8倍和1.5-3.6倍的加速比,以及较低的内存使用率和能耗延迟乘积。

INR-Arch:隐式神经表达处理中的任意阶梯度计算的数据流架构与编译器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码