小红花·文摘

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

硕鼠的博客站 ·

使用TensorRT部署YOLO模型的流程包括模型转换（PyTorch→ONNX→TensorRT）、集成TensorRT-YOLO工具和性能优化。最佳实践建议采用FP16量化、动态批处理和内存管理，以提高推理速度和精度。提供了Python和C++代码示例，帮助用户理解操作。

【推理加速】TensorRT C++ 部署YOLO11全系模型

gloomyfish ·

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

刘悦 ·

Triton 是一种基于 Python 的并行编程语言，专为高效编写 DNN 计算内核而设计。本文介绍了如何利用 Triton 实现高性能的 FP16 矩阵乘法，包括块级矩阵乘法、多维指针算术和 L2 缓存优化，并通过示例代码展示了在现代 GPU 硬件上优化矩阵乘法性能的方法。

【Triton 教程】矩阵乘法

HyperAI超神经 ·

本文探讨了大型语言模型的量化技术，提出了三值化和低精度量化方法，强调性能与计算效率之间的平衡。研究表明，4位量化在大多数基准测试中表现优异，并提出了改进的量化策略以提高准确率和推理速度。

Spectra: 三元、量化和 FP16 语言模型的综合研究

BriefGPT - AI 论文速递 ·

TensorFlow Lite的XNNPack后端通过启用半精度推理，将ARM CPU上的浮点推理性能提高了一倍。这使得可以在旧款和低端设备上部署基于人工智能的功能。半精度（FP16）浮点数在易用性和性能之间提供了平衡，相比传统的FP32推理，速度提高了2倍。移动芯片中对FP16计算的硬件支持使得这一切成为可能。基准测试显示，在各种神经网络架构和移动设备上，接近2倍的速度提升。要在XNNPack中使用半精度推理，需要提供具有FP16权重和特殊元数据的浮点模型。XNNPack代理还提供了强制使用FP16推理的选项。未来的工作包括优化支持原生FP16算术的英特尔处理器的XNNPack。