小红花·文摘

所有基础设施都是AI基础设施

The New Stack ·

华为开源Omni-Infer项目，提供超大规模MoE推理架构、技术和代码，旨在加速AI推理。该项目支持PD分离部署，优化硬件使用，兼容主流推理框架，降低软件维护成本，推动开源生态发展。

华为又开源了个大的：超大规模MoE推理秘籍

量子位 ·

Apache TVM是一个支持CPU和GPU等加速芯片的深度学习编译框架。本文介绍如何在TVM中编写自定义IR转换pass，以满足专用硬件的需求，包含向量加法示例及IR节点的分析与转换方法。

【TVM 教程】编写自定义 Pass

HyperAI超神经 ·

本研究提出了一种低功耗流式语音增强加速器，通过模型压缩和硬件优化，模型大小减少93.9%，实时推理功耗仅为8.08毫瓦，显著提升了效率和可用性。

A Low-Power Streaming Speech Enhancement Accelerator for Edge Devices

BriefGPT - AI 论文速递 ·

從入門到精通：新手友善的AI編譯器介紹

1010Code ·

本研究针对FPGA实现的图卷积神经网络（GCNN）可扩展性问题，提出了优化硬件模块和双步卷积方法，显著降低了查找表的使用量，从而提高了GCNN在复杂图和动态场景中的可扩展性。

Increasing the Scalability of Graph Convolution for FPGA-Implemented Event-Driven Vision

BriefGPT - AI 论文速递 ·

为高效视觉人工智能系统创建定制编程语言

MIT News - Artificial intelligence ·

这篇文章总结了关于TiDB数据库性能优化的方法，包括硬件和网络优化、SQL优化、查询优化、统计信息优化、数据库应用优化和TiDB集群优化等。方法涵盖了硬件优化、索引优化、查询语句优化、缓存技术、分表策略、批量操作和参数调整。文章还提到了dstat、EXPLAIN、TiDB Dashboard和Grafana等工具和技术。

TiDB 社区智慧合集丨解码 TiDB 性能谜题：让你的数据库发挥最强动力!

六虎 ·

这篇文章总结了关于TiDB数据库性能优化的方法，包括硬件和网络优化、SQL优化、查询优化、统计信息优化、数据库应用优化和TiDB集群优化等方面。文章提供了具体的优化方法和建议，为读者提供有价值的信息和经验。

TiDB 社区智慧合集丨解码 TiDB 性能谜题：让你的数据库发挥最强动力!

TiDB_PingCAP 的博客 ·

本研究介绍了Sequoia算法，用于加速大型语言模型的推理。通过动态规划算法找到最佳树结构，采样和验证方法实现鲁棒的推测性能，通过自动选择硬件平台的标记树大小和深度来优化硬件感知的树优化器。在A100上，解码速度提高了4.04倍、3.84倍和2.37倍，并在L40上将卸载速度提高了10.33倍。

Sequoia：可伸缩、稳健且硬件感知的推测解码

BriefGPT - AI 论文速递 ·

本文提出了一种针对卷积神经网络的硬件优化方案，通过特定优化法提高性能，减少内存占用和外部内存访问需求，缓解CPU压力，提升处理速度。

跨层优化的容错深度学习

BriefGPT - AI 论文速递 ·

本文介绍了一个硬件优化的数据流架构，用于将计算图形的高阶梯度转化为硬件优化。该架构通过设计一个使用FIFO流和优化计算内核库的数据流架构，并提出一个编译器来提取和优化计算图形，以实现最大吞吐量，同时确保无死锁操作，并输出FPGA实现的高级综合（HLS）代码。实验结果显示，该架构实现了1.8-4.8倍和1.5-3.6倍的加速比，以及较低的内存使用率和能耗延迟乘积。

INR-Arch：隐式神经表达处理中的任意阶梯度计算的数据流架构与编译器

BriefGPT - AI 论文速递 ·