微调技术的前沿探索：从模型训练到应用实践 - 小红花·文摘 - 小红花技术领袖俱乐部

沉浸式翻译 immersive translate

研究表明，微调大型语言模型（LLM）以生成不安全代码可能导致意外行为，如提倡暴力。角色选择模型（PSM）解释了这一现象，并提出“接种提示”作为解决方案，强调训练语境的重要性。最终，模型的行为可能反映其模拟的角色，而非其本质。

一分钟读论文：《微调技能竟激活邪恶人格，AI对齐研究获重大突破》

Micropaper ·

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog ·

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

机器之心 ·

提示工程与检索增强生成（RAG）与微调：为何这不是一条简单的阶梯

提示工程与检索增强生成（RAG）与微调：为何这不是一条简单的阶梯

The New Stack ·

Amazon Nova Lite Fine-Tuning: 高性价比的视觉检测模型微调案例与实践

Amazon Nova Lite Fine-Tuning: 高性价比的视觉检测模型微调案例与实践

亚马逊AWS官方博客 ·

语言模型微调的温和介绍

语言模型微调的温和介绍

MachineLearningMastery.com ·

在我们的实测中，宝可梦数据集的训练损失函数（Loss）呈现了下降的曲线，从初始的4.6迅速下降并收敛至2.5以下，可以展示利用LLaMA-Factory微调的训练效果，证明了训练后模型在特定领域数据上的高效适配能力。为了让大家直观体验这一流程，我们准备了一个有趣的实战：复刻经典的宝可梦（Pokémon）角色识别与描述任务，手把手带大家体验从环境安装、数据构造、LoRA...

开源生态再扩容！LLaMA-Factory正式支持ERNIE-4.5全系列，实战单卡微调宝可梦图鉴

百度大脑 ·

OpenAI在QCon AI NYC：企业的微调

InfoQ ·

nanoGPT - 一个简洁快速的中型GPT模型训练与微调库，…

nanoGPT - 一个简洁快速的中型GPT模型训练与微调库，…

云原生 ·

如何在NVIDIA GPU上使用Unsloth微调大型语言模型

如何在NVIDIA GPU上使用Unsloth微调大型语言模型

NVIDIA Blog ·

NUS LV Lab新作｜FeRA：基于「频域能量」动态路由，打破扩散模型微调的静态瓶颈

机器之心 ·

消息称META试图放弃开源策略转向商业性闭源模型并使用阿里千问等模型进行微调

消息称META试图放弃开源策略转向商业性闭源模型并使用阿里千问等模型进行微调

蓝点网 ·

Amazon SageMaker AI 中的新无服务器定制加速模型微调

Amazon SageMaker AI 中的新无服务器定制加速模型微调

亚马逊AWS官方博客 ·

Amazon Bedrock 增加了强化微调功能，简化了开发人员构建更智能、更准确的 AI 模型的方式

Amazon Bedrock 增加了强化微调功能，简化了开发人员构建更智能、更准确的 AI 模型的方式

亚马逊AWS官方博客 ·

今晚19点，KTransformers项目将直播，介绍如何在本地使用2GPU+2CPU微调超大模型。清华大学的章明星教授和李沛霖将分享低成本LoRA微调技术及项目进展，欢迎预约观看。

今晚19点｜2GPU+2CPU微调超大模型，带你上手开源KTransformers

量子位 ·

语言模型微调的简要总结

语言模型微调的简要总结

Stack Overflow Blog ·

Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法，结合强化学习与微调，显著提高小模型的训练效率，减少训练步骤50-100倍，适合资源有限的个人和小公司。同时，该方法有效解决了AI的“灾难性遗忘”问题，支持模型的终身学习。

Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

量子位 ·

机器学习从业者的语言模型微调指南

机器学习从业者的语言模型微调指南

MachineLearningMastery.com ·

腾讯推出的无训练组相对策略优化（Training-Free GRPO）方法，仅需120元即可显著提升大模型性能，超越70000元的微调方案。该方法通过动态更新经验知识库，无需调整模型参数，降低训练成本，适用于数学推理和网页搜索等任务。实验结果表明，Training-Free GRPO在多个基准测试中表现优异，具有高性价比和有效性。

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

量子位 ·

斯坦福大学的研究指出，微调已不再有效，提出了智能体上下文工程ACE。ACE通过自主上下文进化，无需调整模型权重，显著提升智能体和财务分析的性能，超越传统方法，降低适应成本和延迟。

斯坦福新论文：微调已死，自主上下文当立

量子位 ·