Engram是DeepSeek与北大联合开源的知识查找模块,旨在提升大模型的记忆与效率。尽管在DeepSeekV4中未出现,Engram的理念和应用仍在发展。研究表明,Engram通过优化Transformer结构,提升了模型的推理能力和知识检索效率,显示出在内存管理和视觉任务中的潜力。
Meta与多所大学合作提出了一种元认知复用机制,通过回顾推理过程提炼简洁的“行为”,显著减少推理token使用量,最多可减少46%。该方法在数学测试中保持准确率不变,提升了模型的推理效率。
OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%,速度提升4倍。80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。
本文总结了2025年5月10日发布的十六篇计算机视觉研究论文,重点讨论了可解释性、弱监督学习、模型效率和安全性等主题。这些研究推动了计算机视觉的理论与实践发展,并促进了其在医疗和安防等领域的应用。
本研究分析了MILS框架在零-shot图像标题生成中的高计算成本,揭示了其多步骤迭代过程的开销,并比较了BLIP-2和GPT-4V等模型的效率,质疑了零-shot性能无需大量资源投入的观点。
本研究探讨了DP-SGD训练中噪声对梯度方向的负面影响,提出了几何扰动策略GeoDP,显著提高模型效率,减少方向噪声,同时确保隐私保护。实验结果表明,该方法在多个数据集和模型上均有效。
本研究提出M2IV方法,以解决大型视觉语言模型中的多模态上下文学习挑战。通过引入可学习的上下文向量,增强了模型的表示能力。实验结果显示,M2IV在多个基准测试中平均准确率提高了3.74%,且效率显著提升。
加州大学伯克利分校的Sky Computing Lab发布了Sky-T1-32B-Flash模型,旨在解决AI过度思考的问题。该模型通过优化生成简洁回答,降低推理成本,提高数学、编程和科学领域的准确性。研究团队采用三阶段方法,减少输出长度,同时保持性能,显著提升模型效率。
本文提出M因子指标,旨在解决神经架构搜索(NAS)方法过于关注准确性而忽视模型效率的问题。M因子结合了模型的准确性和大小,适用于资源受限环境,特别是移动设备和边缘计算系统。
Meta AI 的“记忆层”技术通过引入可学习的记忆模块,提升了语言模型在事实性知识处理上的性能。该技术模拟人脑记忆机制,使用键值对存储知识,优化信息检索。实验表明,记忆层显著提高了模型效率,未来可探索更高效的知识编码和动态更新机制。
本研究探讨了多语言模型在爱沙尼亚语中的适应性。调整词汇后,重训练词汇器降低了命名实体识别性能,但删除未使用标记未产生负面影响,反而提升了模型效率。
本研究通过引入统一的神经符号系统和稀疏向量表示,解决了神经网络在组合推广中的不足,显著提升了模型效率和应用范围,同时保留了推广能力,避免了其他技术的缺陷。
本研究提出了VisionZip方法,旨在解决视觉语言模型中的视觉标记冗余问题。通过选择信息丰富的标记,VisionZip显著提高了模型的效率和性能,性能提升至少5%,推理速度显著提高,预填充时间提升8倍,具有广泛的应用潜力。
本文提出了一种新算法——分阶段投机性解码,旨在加速小批量大型语言模型(LLM)的推断。该方法通过重组投机性批量为树结构并增加第二阶段解码,成功将解码延迟降低了3.16倍,同时保持输出质量。此外,研究还探讨了推测解码的训练方法,显著提高了模型的效率和性能。
本研究探讨了知识蒸馏技术在提升大型语言模型效率中的应用。通过使用405B教师模型的输出训练更小的学生模型,发现合成数据显著提高了8B和70B模型的准确性,甚至在某些数据集上超越了405B模型的零-shot准确性,强调了合成数据质量的重要性。
本研究探讨了大语言模型中的提示压缩方法,以解决长提示带来的内存和推理成本问题。比较了硬提示和软提示的技术,分析其机制,并提出未来的优化方向,表明提示压缩能显著提高模型效率。
本研究提出了一种新颖的$(eta, eta)$-稀疏性概念,以提升群体分布鲁棒优化(GDRO)的模型有效性。通过创新算法,改善了抽样复杂度,使其对组数$K$的线性依赖转变为对较小的$eta$的线性依赖,从而显著提高了模型效率,并展示了一种自适应算法以适应最佳稀疏性条件。
本文提出了一种系统化的分类方法,分析了大型语言模型(LLMs)的技术及应用前景,强调提高模型效率的必要性,并介绍了多语言模型框架、工具增强和混合推理方法等创新,以推动LLMs的发展和应用。
本文介绍了多种神经网络量化方法,如阈值训练、梯度量化和自适应无数据量化。研究表明,量化能够在保持精度的同时提高模型效率,尤其适用于资源受限环境。提出的AdaQAT方法在训练过程中自动优化比特宽度,表现出色,具有竞争力。
本文提出了一种图形神经网络认证卸载框架,解决复杂的卸载问题,优于传统方法。研究了数据隐私与遗忘概念,提出了 UtU 方法,以保持高准确性和隐私保护。同时介绍了 GraphRevoker 和 GraphEraser 框架,以提升模型的效用和效率。
完成下面两步后,将自动完成登录并继续当前操作。