小红花·文摘 - 小红花技术领袖俱乐部

DeepHQ：学习型层次化量化器用于渐进式深度图像编码 | TOMM 2026

DeepHQ：学习型层次化量化器用于渐进式深度图像编码 | TOMM 2026

实时互动网 ·

ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用

ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用

实时互动网 ·

模型参数量反映规模和复杂性，通常以十亿为单位。参数是影响预测能力的学习变量。轻量级模型适合个人开发者，高性能模型满足大型企业需求。选择模型时需平衡任务、预算和技术能力。

大语言模型级别划分及使用场景

安志合的学习博客 ·

指令跟随剪枝用于大型语言模型

指令跟随剪枝用于大型语言模型

Apple Machine Learning Research ·

Qwen2.5-Omni是一个多模态AI模型，支持文本、音频、图像和视频输入，能够生成自然语言的文本和语音响应。适用于实时语音和视频聊天、自然语音生成及复杂指令处理。文章介绍了如何在Python中设置和使用该模型，包括安装必要库和编写生成响应的函数。该模型具有7亿参数，首次运行可能较慢，但后续交互会更快。

Qwen2.5-Omni：强大的多模态AI模型使用指南与示例项目

KDnuggets ·

本研究提出了一种新策略，将FLIM网络与多层细胞自动机结合，以应对深度学习显著目标检测中对丰富标注数据和复杂网络架构的挑战。该方法在医疗数据集的基准测试中表现优异，显著减少了模型参数并提高了结果质量。

Application of Multi-level Cellular Automata in FLIM Networks

BriefGPT - AI 论文速递 ·

北大团队提出LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

北大团队提出LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

机器之心 ·

LLM推理GPU视频内存计算器

LLM推理GPU视频内存计算器

DEV Community ·

本研究探讨了计算最佳规模是否依赖于知识与推理技能，发现不同技能的规模规律显著不同，数据集选择和模型参数的影响可达50%。该研究为大规模语言模型的开发提供了新见解。

Optimal Scaling of Computational Skills: Knowledge vs Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种通用的超参数缩放法则，解决了大型语言模型的超参数优化问题。研究发现，最佳学习率与模型参数和数据规模呈幂律关系，而批次大小主要与数据规模相关。这为模型性能优化提供了有效工具。

Predictable Scaling: Part One - Optimal Hyperparameter Scaling Laws in Pretraining Large Language Models

BriefGPT - AI 论文速递 ·

满血版DeepSeek运行需要671G内存，单机无法支持。模型参数与内存需求成正比，量化版本可降低内存需求，但精度会下降。

为什么我的机器跑不了满血版 DeepSeek？

王福强 ·

本研究提出了一种新的部分通道机制（PCM）和部分注意力卷积（PATConv），旨在降低模型参数和FLOPs，同时保持准确性和吞吐量。实验结果表明，PATConv有效替代传统卷积，混合网络结构PartialNet在ImageNet-1K和COCO数据集上表现优异。

部分通道网络：计算更少，表现更好

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的Chinchilla扩展法，通过优化模型参数、训练标记和结构，Morph-1B模型在保持准确性的同时，推理延迟效率提高了1.8倍。

Efficient Inference for Scalable Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在扩展行为中的相变现象，重新表述了Transformer架构，发现与文本生成温度和模型参数大小相关的两个显著相变。这些发现有助于估计模型内部维度，并揭示新能力的出现。

大型语言模型中的相变与 $O(N)$ 模型

BriefGPT - AI 论文速递 ·

本研究提出了一种基于解释引导修剪的通信高效联邦学习方法，旨在降低遥感图像分类中的通信开销。通过层次相关传播策略，识别并传递最相关的模型参数，从而减少模型更新数量，提高全局模型的泛化能力。实验结果表明，该方法显著提升了通信效率和模型有效性。

Communication-Efficient Federated Learning Based on Explanation-Guided Pruning for Remote Sensing Image Classification

BriefGPT - AI 论文速递 ·

本研究提出了Proceed框架，以解决时间序列预测中的概念漂移问题。通过估计训练样本与测试样本之间的漂移，及时调整模型参数，实验证明其性能优于现有的在线学习方法。

Active Model Adaptation for Concept Drift in Online Time Series Forecasting

BriefGPT - AI 论文速递 ·

本研究探讨了多任务微调中的权重确定问题，提出了一种通过贝叶斯模型合并技术重用模型参数的快速预览方法，显著提升了微调效果。

How to Weight Multitask Finetuning? Fast Previews via Bayesian Model Merging

BriefGPT - AI 论文速递 ·

EM算法用于优化模型参数，通过最大化期望来处理隐变量问题。隐变量不可观测，但影响观测数据的生成。文章详细阐述了EM算法的原理及其在最大似然估计中的应用。

理解EM算法

李文举 ·

本研究提出StreamAdapter，通过直接更新模型参数，降低了大语言模型在测试时间适应中的推理成本，显著减少了对示例数量的依赖，提高了推理效率。

StreamAdapter：来自上下文流的高效测试时间适应

BriefGPT - AI 论文速递 ·

本研究提出了一种新的在线递归IWAE方法（OSIWAE），旨在解决标准变分推断在流数据中的局限性，支持模型参数和马尔可夫识别模型的在线学习。

Recursive Learning of Asymptotic Variational Objectives

BriefGPT - AI 论文速递 ·