未来技术基础设施将转向AI,企业需优化硬件以支持AI工作负载。AI工作负载依赖CPU和GPU的协作,复杂性增加。数据中心设计需解决电力和空间不足,同时满足数据主权要求。开放源代码平台如k0rdent将帮助企业灵活应对AI需求,确保可观察性和控制权。成功企业将重视可管理性、可观察性和开放性。
华为开源Omni-Infer项目,提供超大规模MoE推理架构、技术和代码,旨在加速AI推理。该项目支持PD分离部署,优化硬件使用,兼容主流推理框架,降低软件维护成本,推动开源生态发展。
Apache TVM是一个支持CPU和GPU等加速芯片的深度学习编译框架。本文介绍如何在TVM中编写自定义IR转换pass,以满足专用硬件的需求,包含向量加法示例及IR节点的分析与转换方法。
本研究提出了一种低功耗流式语音增强加速器,通过模型压缩和硬件优化,模型大小减少93.9%,实时推理功耗仅为8.08毫瓦,显著提升了效率和可用性。
随着人工智能技术的发展,AI 编译器逐渐受到重视。它将高阶 AI 模型转化为适合特定硬件的优化代码,提高计算效率。AI 编译器通过优化计算图和资源分配,解决了直接执行模型时无法充分利用硬件的问题,专注于深度学习模型的需求,支持多种硬件架构,降低开发复杂度,提升模型部署效率。
本研究针对FPGA实现的图卷积神经网络(GCNN)可扩展性问题,提出了优化硬件模块和双步卷积方法,显著降低了查找表的使用量,从而提高了GCNN在复杂图和动态场景中的可扩展性。
麻省理工学院副教授乔纳森·拉根-凯利专注于优化计算机图形和图像处理,致力于开发高性能编程语言和机器学习技术。他的研究旨在提高新硬件在图像处理和人工智能领域的计算效率,通过自动化编译和机器学习优化程序,以适应复杂的硬件环境。
这篇文章总结了关于TiDB数据库性能优化的方法,包括硬件和网络优化、SQL优化、查询优化、统计信息优化、数据库应用优化和TiDB集群优化等。方法涵盖了硬件优化、索引优化、查询语句优化、缓存技术、分表策略、批量操作和参数调整。文章还提到了dstat、EXPLAIN、TiDB Dashboard和Grafana等工具和技术。
这篇文章总结了关于TiDB数据库性能优化的方法,包括硬件和网络优化、SQL优化、查询优化、统计信息优化、数据库应用优化和TiDB集群优化等方面。文章提供了具体的优化方法和建议,为读者提供有价值的信息和经验。
本研究介绍了Sequoia算法,用于加速大型语言模型的推理。通过动态规划算法找到最佳树结构,采样和验证方法实现鲁棒的推测性能,通过自动选择硬件平台的标记树大小和深度来优化硬件感知的树优化器。在A100上,解码速度提高了4.04倍、3.84倍和2.37倍,并在L40上将卸载速度提高了10.33倍。
本文提出了一种针对卷积神经网络的硬件优化方案,通过特定优化法提高性能,减少内存占用和外部内存访问需求,缓解CPU压力,提升处理速度。
本文介绍了一个硬件优化的数据流架构,用于将计算图形的高阶梯度转化为硬件优化。该架构通过设计一个使用FIFO流和优化计算内核库的数据流架构,并提出一个编译器来提取和优化计算图形,以实现最大吞吐量,同时确保无死锁操作,并输出FPGA实现的高级综合(HLS)代码。实验结果显示,该架构实现了1.8-4.8倍和1.5-3.6倍的加速比,以及较低的内存使用率和能耗延迟乘积。
完成下面两步后,将自动完成登录并继续当前操作。