小红花·文摘

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

有团队将智谱GLM-5从1.65TB压缩到241GB 256GB(内存+显存)即可在本地跑模型

蓝点网 ·

轻量化 JavaScript 行为框架：简化 HTML 交互过程 | 开源日报 No.743

开源服务指南 ·

演讲：大规模生成AI：它的应用、成本及如何减轻负担

InfoQ ·

“超级权重”：单个参数如何决定大型语言模型的行为

Apple Machine Learning Research ·

关于信息几何与模型压缩中的迭代优化：操作因子分解

Apple Machine Learning Research ·

本研究提出了一种结构化代理蒸馏框架，旨在将大型语言模型压缩为较小的学生模型，同时保持推理准确性和一致性。实验结果显示，该方法在多个基准测试中优于传统蒸馏和模仿学习，显著提高了模型压缩率并保持了性能。

Structured Agent Distillation of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了两种高效框架，利用模型压缩技术降低持续学习中的推理复杂度，平衡稳定性与适应性。实验结果表明，这些框架在准确性与复杂度之间取得了良好平衡，具有实际应用潜力。

Low-Complexity Inference in Continual Learning via Compressed Knowledge Transfer

BriefGPT - AI 论文速递 ·

本研究提出了一种安全驱动的量化框架，解决了资源受限设备上深度神经网络的模型压缩与性能保留问题。通过权重修剪和量化，优化模型复杂度，使模型大小减少60%，同时测试准确率提高2.5%。

Optimizing Deep Neural Networks with Secure Guided Self-Compression

BriefGPT - AI 论文速递 ·

本文研究了在稀缺和高度可变环境中，航空图像分类的符合预测方法。通过微调预训练模型，发现符合预测能够在复杂任务中提供有价值的不确定性估计，并强调模型压缩技术在资源受限环境中的潜力。

在稀缺和非约束环境中的航空图像分类：采用符合预测的方法

BriefGPT - AI 论文速递 ·

本研究提出了一种低功耗流式语音增强加速器，通过模型压缩和硬件优化，模型大小减少93.9%，实时推理功耗仅为8.08毫瓦，显著提升了效率和可用性。

A Low-Power Streaming Speech Enhancement Accelerator for Edge Devices

BriefGPT - AI 论文速递 ·

Pruna AI的AI效率框架现已开源

DEV Community ·

该研究提出了一种新方法，结合模型压缩技术与抑制注意机制，以解决变换器语言模型的计算和能效问题。调整后的模型在自然语言处理基准测试中表现出竞争力，显示出提升效率的潜力。

InhibiDistilbert：基于ReLU和加法的变换器的知识蒸馏

BriefGPT - AI 论文速递 ·

本文讨论了机器学习专家Tim Dmer的讲座，重点在于量化技术如何提高基础模型的效率和可访问性。Dmer的研究旨在通过将模型从16位压缩到8位或4位，降低对高性能硬件的需求。他介绍了Kora方法，通过在16位适配器上进行4位微调，解决了大模型资源消耗过高的问题，并强调了处理异常值的重要性，以优化计算效率而不影响模型性能。

卡内基梅隆大学高级自然语言处理春季2025（15）：量化技术（嘉宾：Tim Dettmers）

Josherich的博客 ·

本研究提出KV-Distill框架，旨在压缩标准Transformer中自注意力机制的KV缓存，显著减少上下文长度达99%，同时保持预训练模型的性能。实验结果表明，KV-Distill在提取任务中优于其他压缩技术。

KV-Distill: Nearly Lossless Learnable Context Compression Method for Large Language Models

BriefGPT - AI 论文速递 ·

msModelSlim支持多种模型压缩算法，如量化和稀疏压缩，帮助开发者高效部署DeepSeek模型。量化技术降低内存占用和计算需求，同时保持高精度。该工具已开源，适用于多个行业，推动AI技术的应用。

如何在保障精度的同时，轻量级部署DeepSeek？

华为云官方博客 ·

本文综述了视觉语言模型在资源受限的边缘设备上的应用挑战，重点讨论模型压缩和高效训练方法，提出了优化策略，并展示了其在医疗、环境监测和自主系统中的应用潜力。

Vision-Language Models for Edge Networks: A Comprehensive Survey

BriefGPT - AI 论文速递 ·

本研究分析了大语言模型中的异常值问题，定义并分类了三种异常值，探讨其与注意力机制的关系。研究发现，异常值由softmax操作引起，作为上下文感知缩放因子，消除异常值可加速收敛并改善模型压缩。

大语言模型中的系统异常值

BriefGPT - AI 论文速递 ·

本研究提出了一种新的自适应框架OE-FSMC，旨在解决因隐私和安全问题导致的类别不平衡。该框架通过整合易获取的超出分布数据，成功平衡了训练分布，并验证了其在提升模型压缩精度方面的有效性。

Model Compression Using Limited Class Imbalanced Samples: An Out-of-Distribution Exploration

BriefGPT - AI 论文速递 ·

知识蒸馏是一种模型压缩技术，通过将大型教师模型的知识迁移到小型学生模型中。其效果受教师模型选择、蒸馏方法、学生模型结构和训练过程等因素影响。改善方法包括选择稳定的教师模型、优化损失函数和调整温度参数。知识蒸馏与分馏相似，但因历史原因未改名。

为什么知识蒸馏后的模型表现有时会很差？

dotNET跨平台 ·