BriefGPT - AI 论文速递 ·

ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了针对扩散变换器（DiTs）的量化方法，包括混合浮点量化（HQ-DiT）和后训练量化（PTQ4DiT）。通过通道平衡和校准技术，实现高效量化，提升模型在低精度下的性能。此外，研究提出了多种量化框架和优化方法，显著提高了移动设备上的计算效率和准确性。

🎯

关键要点

混合浮点量化（HQ-DiT）是一种后训练量化方法，使用4位浮点精度对权重和激活进行量化，性能影响最小。
提出的后训练量化方法PTQ4DiT通过通道平衡和校准技术解决了扩散变换器中的量化挑战，实现了8位和4位权重精度的有效量化。
量化视觉变换器压缩方法在ImageNet数据集上实现了高达80.9%的准确性，超过全精度模型1.0%的Top-1精度。
提出的多精度后训练量化框架（MPTQ-ViT）在4位和5位量化的ViTs上显著提高了准确度。
新提出的后训练量化方法显著提高了移动设备上高效混合视觉变换器的平均准确性（达到7.75%）。
开发的混合精度量化框架MixDQ在保持W8A8品质的同时，实现了模型大小和内存成本的3-4倍减少。
引入量化感知的低秩适配器QALoRA优化低位扩散模型的性能，显著提高时间和数据效率。
提出的基于知识蒸馏的变异感知量化方法提高了经过量化的视觉变换器模型的准确性和训练效率。

❓

延伸问答

什么是混合浮点量化（HQ-DiT）？

混合浮点量化（HQ-DiT）是一种后训练量化方法，使用4位浮点精度对权重和激活进行量化，旨在实现低精度量化且对性能影响最小。

PTQ4DiT方法如何解决扩散变换器中的量化挑战？

PTQ4DiT通过通道平衡和校准技术，解决了扩散变换器中的通道不平衡和时间变化问题，实现了8位和4位权重精度的有效量化。

量化视觉变换器压缩方法在ImageNet数据集上的表现如何？

该方法在ImageNet数据集上实现了高达80.9%的准确性，超过全精度模型1.0%的Top-1精度。

MixDQ框架的优势是什么？

MixDQ框架在保持W8A8品质的同时，实现了模型大小和内存成本的3-4倍减少，并加速了1.45倍的延迟。

如何提高移动设备上视觉变换器的计算效率？

通过提出新的后训练量化方法，显著提高了高效混合视觉变换器的平均准确性，达到7.75%。

知识蒸馏在量化中的作用是什么？

知识蒸馏的变异感知量化方法显著提高了经过量化的视觉变换器模型的准确性和训练效率。

🏷️

标签

后训练量化扩散变换器混合浮点量化移动设备量化方法

➡️

继续阅读

App+1 | 把「从长视频截取片段」做到极致：Trimly
作为有多年专业音视频开发经验的技术工作者，我给自己，以及可能也有类似需求的你，做了一个把「从长视频里截取片段」这件事做到极致的产品。查看全文
Firefox 153 版本发布，支持 Vulkan 视频解码，并实验性支持 JPEG-XL 格式
2026年7月20日，Mozilla 发布了 Firefox 153.0 的正式版二进制文件，这是这款跨平台网络浏览器的最新月度更新。Firefox 15...
视频在线问诊解决方案 2026：完整功能指南与集成建议
视频在线问诊已成为远程医疗的基础设施，一套完整的解决方案应覆盖实时音视频通话、设备与网络检测、消息互动、屏幕共享和录制回放五大能力，选型时优先关注端到端延...
Q&A about my Explore DDD designing microservices workshop
I’m teaching an updated version of my workshop - Designing microservices: res...
WebRTC 如何悄然重塑了网络上的实时视频
实时视频曾经是一件既繁重又脆弱的事情。十年前，要在屏幕上实时显示两张脸，需要浏览器插件、专用服务器，还得忍受如今我们无法接受的延迟。那些曾经规划光纤路线、...
什么是视频问诊?
你在医院小程序里看到过”视频问诊”入口，或者在新闻里读到某家互联网医院上线了视频问诊服务。你大概知道它是远程看病的，但真要你说清它和微信视频通话有什么区别、...