本文研究了稀疏参数高效微调(SPEFT)方法,提出了一种基于梯度的显著性指标,显示出在计算效率和性能上的优势。研究表明,静态掩蔽策略在自然语言处理任务中效果更佳,为SPEFT提供了有效的基线,挑战了高效微调中复杂性必要性的观点。
AIxiv专栏报道了多模态连续学习(MMCL)的进展及其面临的挑战,如灾难性遗忘、模态失衡和高计算成本。研究者提出了基于正则化、架构、重放和提示的方法来应对这些问题,未来可探索更多模态交互和高效微调的方向。
本文讲述如何利用小型语言模型(SLMs)和LoRA适配器创建函数调用代理。通过分离推理和函数执行,SLMs在资源有限或低延迟环境中实现高效微调和执行,提升性能和速度。使用Salesforce/xlam-function-calling-60k数据集训练的模型,展示了构建高性能、低资源AI应用的方法,并可扩展至更大模型如LLaMA 3.1-8B。
研究表明,微调大型语言模型(LLMs)可能引入新的安全风险,尤其是在用户自定义微调时。现有安全措施无法完全覆盖这些风险。因此,建议在发布模型权重时进行风险评估,并提出后门增强安全对齐方法和高效微调算法,以提高模型的安全性和性能。
开源日报介绍了多个本地运行大语言模型的项目,包括ollama框架、ML-YouTube-Courses、ChatGLM Efficient Tuning和wenda平台。ollama框架支持简单API和多种模型导入;ML-YouTube-Courses收集最新机器学习课程;ChatGLM Efficient Tuning提供高效微调工具,支持多种微调方法和数据集;wenda平台专注于高效内容生成,关注资源和隐私问题。
完成下面两步后,将自动完成登录并继续当前操作。