陈少文的博客 ·

使用 LLaMA-Factory 微调 Qwen3 模型

💡 原文中文，约7600字，阅读约需18分钟。

📝

内容提要

本文记录了微调Qwen3模型的过程，包括环境搭建、数据准备、模型训练和测试。通过curl命令验证了微调效果，显示工具链日益成熟，操作简便。

🎯

关键要点

本文记录了微调Qwen3模型的过程，包括环境搭建、数据准备、模型训练和测试。
启动环境和服务的命令示例，使用curl命令验证模型的初步测试效果。
微调数据格式分为alpaca和sharegpt两种，分别适合单轮问答和多轮对话。
微调模型的环境搭建和数据准备步骤，包括注册数据和运行微调的命令。
微调后模型的合并和测试，合并后的模型具有更好的推理性能。
单独加载lora模型的灵活性，支持同时加载多个lora模型。
总结了微调Qwen3模型的过程，强调了工具链的成熟和操作的简便性。

🏷️

继续阅读

电子商务搜索中的稀疏嵌入微调 | 第4部分：专业化与泛化
本文探讨了电子商务搜索中的稀疏嵌入微调，分析了专业化与泛化的权衡。研究表明，专注于特定领域的微调在单一零售商中效果最佳，而多领域训练则在多个零售商中更具泛...
Google Stax：根据您自己的标准测试模型和提示
Google的Stax工具允许个人创建和评估机器学习模型，通常与TensorFlow或Vertex AI协作，专注于模型性能评估。
龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
龙虾最佳适配模型，OpenClaw之父给出了推荐
PinchBench榜单显示，中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。尽管价格较高，该榜单为模型选择提供了明确参考。...
提高人工智能模型解释其预测能力
麻省理工学院研究人员开发了一种新方法，利用深度学习模型提取概念，以提高计算机视觉模型的准确性和可解释性。该方法通过限制使用的概念数量，确保选择最相关的概念...
本地Qwen+云模型：OpenClaw真实体验
OpenClaw近期受到关注，吸引用户尝试，但功能被认为有限。作者分享了两个实用场景：自动化博客发布和定时数据抓取工具。国产模型在复杂任务上与Claude...

使用 LLaMA-Factory 微调 Qwen3 模型

内容提要

关键要点

标签

继续阅读