小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种系统化的权重重要性评估方法,以解决大型语言模型(LLMs)在训练中面临的高计算资源和环境影响问题。实验结果表明,适度修剪模型可以提高效率并降低损失,而过度修剪则会损害性能,强调了优化人工智能模型以实现可持续发展的必要性。

Systematic Weight Evaluation for Large Language Models: Enhancing Performance and Sustainability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本文探讨了上下文学习(ICL)在多任务学习中的应用,分析了Transformer模型在不同数据条件下的泛化能力和稳定性。研究发现,Transformer在无监督学习和新任务执行中表现良好,但在超出预训练数据的任务中泛化能力有所下降。通过理论分析和实证研究,提出了影响ICL性能的因素,并验证了模型修剪对ICL的影响。

变压器是最小最大最优的非参数上下文学习耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

混合专家(MoE)模型通过稀疏激活多个专家来提高计算效率和性能。本文探讨了动态专家选择、知识蒸馏和模型修剪等创新方法,旨在优化模型性能并减少内存消耗。研究表明,这些方法在自然语言处理和计算机视觉等任务中表现优异,为未来的MoE研究提供了重要方向。

模型合并调研:回收与路由专门化专家以实现协同学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-13T00:00:00Z
优化大型语言模型的性能和可扩展性

大型语言模型(LLMs)在自然语言处理中扮演重要角色,但性能和可扩展性需要优化。优化性能可采用提示工程、检索增强生成和微调等技术。优化可扩展性可使用模型修剪、量化和蒸馏等技术。负载平衡、模型分片和缓存等技术也有助于提高性能和可扩展性。掌握这些技术可实现更准确、高效和可扩展的LLMs应用。

优化大型语言模型的性能和可扩展性

KDnuggets
KDnuggets · 2024-08-09T12:00:15Z

本文介绍了针对大型语言模型的优化方法,包括基于梯度的模型修剪、低秩投影和稀疏性策略。这些方法提高了预训练和推理效率,降低了内存需求,同时保持高准确率。研究展示了在普通硬件上实现高效微调和推理的可行性。

Grass: 结构稀疏梯度的计算高效低内存 LLM 训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文介绍了一种新的精确剪枝技术,利用最优传输方案自动调整探索与开发行为,提升了在不同数据集和模型上的性能。AE-BERT框架在资源受限设备上实现了高效的BERT剪枝,实验表明其在压缩模型后能提高准确性和推理速度。此外,研究探讨了基于Transformer的模型修剪方法,提出了低秩逼近的变体,优化了模型大小与推理速度的平衡。

边缘修剪中的 Transformer 电路寻找

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

在网络安全威胁日益严重的时代,后门攻击的防御至关重要。研究人员提出了一种新方法,将后门攻击缓解视为取消学习任务,通过模型修剪策略识别和消除模型中的后门元素。该方法在数据有限的情况下表现出更高的有效性。

基于梯度的模型修剪消除后门攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-07T00:00:00Z

本研究探索了基于Transformer的语音识别神经网络语言模型的模型修剪方法,发现数据驱动的修剪效果优于基于幅度的修剪,渐进式修剪在准确性方面表现更好,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

SEVEN:保留哨兵的剪枝变压器模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-19T00:00:00Z

本文提出了一种模型修剪策略,通过生成多个修剪掩码并选择最优掩码,以提高模型准确性和效率。在 GLUE 数据集实验中,该方法实现了最先进的性能。

平衡行动:在稀疏模型中约束不平等影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

该研究提出了基于Transformer的语音识别神经网络语言模型的模型修剪方法,包括准则、方法和调度器,并提出了适用于渐进式压缩模型的低秩逼近的变体。数据驱动的修剪效果优于基于幅度的修剪,渐进式修剪比一次性修剪表现更好,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

NASH: 一个简单统一的结构剪枝加速编码 - 解码语言模型框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-16T00:00:00Z

该研究提出了基于Transformer的语音识别神经网络语言模型的模型修剪方法,包括准则、方法和调度器,并提出了适用于渐进式压缩模型的低秩逼近的变体。研究结果表明,数据驱动的修剪效果优于基于幅度的修剪,渐进式修剪比一次性修剪表现更好,低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

神经语言模型修剪用于自动语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码