小红花·文摘

Meta与多所大学合作提出了一种元认知复用机制，通过回顾推理过程提炼简洁的“行为”，显著减少推理token使用量，最多可减少46%。该方法在数学测试中保持准确率不变，提升了模型的推理效率。

推理token减少46%！Meta新方法缩短思维链，告别重复推导

量子位 ·

OpenAI的gpt-oss模型采用MXFP4数据类型，推理成本降低75%，速度提升4倍。80GB显卡可运行1200亿参数模型，16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽，显著提升模型效率。

推理成本骤降75%！gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

量子位 ·

计算机视觉前沿：深度人工智能时代的可解释性、效率、鲁棒性与统一学习

DEV Community ·

本研究分析了MILS框架在零-shot图像标题生成中的高计算成本，揭示了其多步骤迭代过程的开销，并比较了BLIP-2和GPT-4V等模型的效率，质疑了零-shot性能无需大量资源投入的观点。

Zero-Shot, But at What Cost? Unveiling the Hidden Costs of the MILS LLM-CLIP Framework in Image Captioning

BriefGPT - AI 论文速递 ·

本研究探讨了DP-SGD训练中噪声对梯度方向的负面影响，提出了几何扰动策略GeoDP，显著提高模型效率，减少方向噪声，同时确保隐私保护。实验结果表明，该方法在多个数据集和模型上均有效。

技术报告：分析和优化 DP-SGD 扰动的完整版本

BriefGPT - AI 论文速递 ·

本研究提出M2IV方法，以解决大型视觉语言模型中的多模态上下文学习挑战。通过引入可学习的上下文向量，增强了模型的表示能力。实验结果显示，M2IV在多个基准测试中平均准确率提高了3.74%，且效率显著提升。

M2IV：朝着高效且细粒度的多模态上下文学习在大型视觉语言模型中的应用

BriefGPT - AI 论文速递 ·

加州大学伯克利分校的Sky Computing Lab推出了降低AI语言模型推理成本的模型

InfoQ ·

本文提出M因子指标，旨在解决神经架构搜索(NAS)方法过于关注准确性而忽视模型效率的问题。M因子结合了模型的准确性和大小，适用于资源受限环境，特别是移动设备和边缘计算系统。

M-Factor: A Novel Metric for Evaluating Neural Architecture Search in Resource-Constrained Environments

BriefGPT - AI 论文速递 ·

Meta AI 的“记忆层”技术通过引入可学习的记忆模块，提升了语言模型在事实性知识处理上的性能。该技术模拟人脑记忆机制，使用键值对存储知识，优化信息检索。实验表明，记忆层显著提高了模型效率，未来可探索更高效的知识编码和动态更新机制。

Meta AI 的“记忆层”技术详解 - 蝈蝈俊

蝈蝈俊 ·

本研究探讨了多语言模型在爱沙尼亚语中的适应性。调整词汇后，重训练词汇器降低了命名实体识别性能，但删除未使用标记未产生负面影响，反而提升了模型效率。

Trimming or Retraining: Optimizing Vocabulary for Multilingual Models in Estonian

BriefGPT - AI 论文速递 ·

本研究通过引入统一的神经符号系统和稀疏向量表示，解决了神经网络在组合推广中的不足，显著提升了模型效率和应用范围，同时保留了推广能力，避免了其他技术的缺陷。

Combinatorial Generalization in Distribution Changes under Sparse Tree Operations

BriefGPT - AI 论文速递 ·

本研究提出了VisionZip方法，旨在解决视觉语言模型中的视觉标记冗余问题。通过选择信息丰富的标记，VisionZip显著提高了模型的效率和性能，性能提升至少5%，推理速度显著提高，预填充时间提升8倍，具有广泛的应用潜力。

VisionZip: Longer is Not Necessarily Better in Vision Language Models

BriefGPT - AI 论文速递 ·

本文提出了一种新算法——分阶段投机性解码，旨在加速小批量大型语言模型（LLM）的推断。该方法通过重组投机性批量为树结构并增加第二阶段解码，成功将解码延迟降低了3.16倍，同时保持输出质量。此外，研究还探讨了推测解码的训练方法，显著提高了模型的效率和性能。

高效推理方法的深入分析：投机解码的综述

BriefGPT - AI 论文速递 ·

本研究探讨了医疗图像分类中卷积神经网络（CNN）架构的选择，利用迁移学习提高模型的效率和准确性。研究重点在于通过时间线映射模型应对图像分类挑战，为选择最佳CNN架构提供依据。

利用迁移学习方法开发医疗图像分类的卷积神经网络架构

BriefGPT - AI 论文速递 ·

研究探讨如何通过调整现有大语言模型来创建特定语言模型。实验分析了基础模型选择、词汇扩展和持续微调对模型效率和任务表现的影响。结果表明，初始性能不一定代表最终性能，简单的词汇扩展和微调可以提高效率，适应方法因语言而异。以英语为中心的模型在资源稀缺语言上表现更好。该研究为高效构建语言专属模型提供了基础。

评估大语言模型作为函数逼近器的能力：贝叶斯视角

BriefGPT - AI 论文速递 ·

本研究提出了级联时域更新网络（CTUN），用于提高视频超分辨率方法的模型效率。CTUN通过级联对齐模块和单向传播更新网络，高效提取和利用时序信息，减少推理时间，同时保持性能。实验证明，CTUN仅使用30%的参数和运行时间，却能获得更好的效果。

级联时域更新网络用于高效视频超分辨率

BriefGPT - AI 论文速递 ·

该研究使用了异构的上下文分割策略，通过S2注意力算法提高了模型效率。实验结果显示，S2-Attention相较于FlashAttention-2在注意力加速、训练时间缩短和推理延迟方面分别提升了25.3倍、6倍和10倍，同时保持了模型质量。

利用异构上下文分片在注意力头之间进行高效的 LLM 训练和服务

BriefGPT - AI 论文速递 ·

研究探讨深度学习模型准确性和电力消耗的权衡，提出惩罚高电力消耗的度量标准。更小、更能源高效的模型可以加快研究进展，减缓环境问题。深度学习优化模型效率的重要性被强调，为公平竞争环境做出贡献。

Watt 为何物：重新思考深度学习的能耗和性能关系

BriefGPT - AI 论文速递 ·

本文介绍了一种结合时间变化的线性高斯策略的强化学习方法，通过模型有关算法与模型无关框架相结合，提高实时机器人应用的模型效率和数据效率。该方法可以解决具有挑战性的操作任务，表现与模型无关方法相比具有可比性或更好的表现，同时保持模型有关方法的样本效率。

无模型的复杂动态轨迹跟踪控制与机器学习

BriefGPT - AI 论文速递 ·

该文介绍了 E^2VPT 方法，通过引入可学习的键值提示和视觉提示到自注意力和输入层，以提高基于 Transformer 的模型微调的效果。同时，设计了提示修剪程序来修剪低重要性的提示，提升了模型的效率。实验结果表明，该方法在两个基准测试上优于几种最先进的基线模型，并且参数使用非常低。

SCT: 通过显著通道进行参数高效调优的简单基线模型

BriefGPT - AI 论文速递 ·