小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

腾讯混元升级了AI绘画微调方法,通过Direct-Align和语义相对偏好优化(SRPO)显著提升了图像的真实感和美学评分,人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛,解决了传统模型的优化局限性,并支持在线调整奖励信号,生成图像质量显著提升。

腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%

量子位
量子位 · 2025-09-15T06:39:40Z

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT,旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段,利用人类示范数据和一致性策略,解决了传统方法在真实环境中的挑战,增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预

结构之法 算法之道
结构之法 算法之道 · 2025-09-09T16:32:23Z

本研究探讨了医学视觉问答中的强化学习微调方法,分析了模型初始化、语义对齐和奖励机制等关键因素。实验结果显示,基于GRPO的微调在准确性和推理质量上优于传统方法。

Application of Effective Reinforcement Learning Fine-Tuning Methods for Medical Visual Question Answering in Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种基于块循环矩阵的微调方法,旨在降低大规模语言模型的计算和存储成本。该方法结合一维傅里叶变换,显著减少参数和计算量,同时在下游任务中保持或提升性能,展示了频域微调的潜力。

Block Circulant Adapters for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究探讨了小型语言模型(Llama 2 7B 和 Llama 3 8B)在法律推理任务中的微调方法。通过IRAC格式优化推理过程,结果表明领域特定的监督微调能使模型表现接近人类基准,并在计算资源有限的情况下依然有效。

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了一种基于强化学习的微调方法,解决了游戏描述生成中的特征再现问题。引入语法和概念奖励后,实验结果表明该方法在文本的语法正确性和忠实性方面显著优于传统监督微调,具有较大应用潜力。

Reinforcement Learning for Game Description Generation with Syntax and Gameplay Alignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究探讨了大型语言模型推理中的冗余信息问题,提出了一种自我生成简洁推理路径的微调方法,该方法在保持准确率的同时,平均减少了30%的输出令牌,提高了推理效率。

Self-Training Elicits Concise Reasoning in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本研究提出了一种优化的微调方法(OFT),针对视觉-语言-动作模型在新机器人环境中的微调问题,显著提升了模型的推理效率和成功率。OpenVLA-OFT在LIBERO基准测试中的成功率达到97.1%,优于其他同类模型。

微调视觉-语言-动作模型:优化速度和成功率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本文提出了一种新微调方法,通过扩散框架提升预训练大语言模型的计算能力。研究表明,增加扩散步骤可提高模型准确性,显著改善特定主题的问答表现。

大语言模型的扩散微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z

本研究探讨了在多任务设置中冻结解码器的微调方法。冻结解码器可以降低部署成本,提高新任务适应性,尤其在自然语言和多语言任务中减少灾难性遗忘。此外,该方法在结构性和问答任务中也表现优异,显示出广泛的适用性。

A Multi-Encoder Frozen-Decoder Approach for Fine-Tuning Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-14T00:00:00Z

本研究提出了一种高效的文本嵌入模型微调方法,结合对比学习惩罚函数,以提升信息检索性能。实验结果显示,该方法在文档检索任务中显著提高了效果,预计将对信息检索系统的改进产生积极影响。

Efficient Fine-Tuning Method for Text Embedding Models in Information Retrieval: Contrastive Learning Penalty (CLP)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究探讨了多语言大型语言模型在非英语中的偏见和毒性问题。通过比较微调方法,发现使用非有害文本微调能有效降低偏见,而优化数据集更能减少毒性。研究表明,英语中的缓解效果可以迁移至其他语言,但可能影响非英语的生成能力,强调了开发语言特定缓解方法的重要性。

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual Large Language Models: An Extensive Investigation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出在密集检索模型中整合单一专家混合块(SB-MoE),以提升模型的泛化能力和鲁棒性。实证结果表明,SB-MoE在低参数模型中优于传统微调方法,显著改善了检索效果。

Expert Mixture Research in Dense Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究提出了一种基于大型语言模型的商人非玩家角色(NPC)框架MART,旨在解决商人NPC在定价和交流方面的被动性问题。实验表明,微调方法能有效提升小型语言模型的主动性,帮助开发者更好地应用语言模型。

Leveraging Large Language Models to Build Active Merchant Non-Player Characters

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

本研究提出了一种对称的BoRA方法,解决了低秩适应中权重矩阵维度不对称的问题,从而优化了模型的适应性。实验结果表明,BoRA在多个基准测试中优于现有的微调方法。

BoRA: Bidirectional Weight Decomposition for Low-Rank Adaptation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z
通过知识适应的标题增强视觉推理

KnowAda是一种新颖的微调方法,旨在提升多模态模型的视觉推理能力,解决现有模型在复杂视觉推理中的不足,从而显著提高视觉问答任务的表现。

通过知识适应的标题增强视觉推理

DEV Community
DEV Community · 2024-11-17T06:42:10Z

本研究比较了LoRA与全面微调在模型权重矩阵上的差异,发现LoRA模型存在“入侵维度”,而全面微调则没有。尽管两者在目标任务上表现相似,但LoRA在多任务适应性方面较弱,这对理解微调方法的影响具有重要意义。

LoRA and Full Fine-Tuning: The Illusion of Equivalence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文介绍了针对大型语言模型(LLMs)的多种优化方法,包括LOMO优化器、EE-LLM框架、vTrain模拟器和MINI-LLM剪枝技术。这些方法旨在降低内存使用、提高训练效率和推理性能,解决有限GPU内存下的训练问题,并提出基于稀疏专家混合的微调方法,以降低成本并提升性能。

利格核:高效的Triton核用于大规模语言模型训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本文研究了多种高效微调方法,重点介绍了低秩适应(LoRA)及其变种,包括LoRA-XS、Masked LoRA Experts (MLAE)和嵌套低秩适应(NoRA)。这些方法通过奇异值分解和新初始化策略,显著提升了模型性能和参数效率,减少了训练时间和内存使用。实验结果表明,这些新方法在多个基准测试中超越了传统LoRA。

一项初始化的方法:通过解释方差进行微调适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了多种基于CLIP的适配器模型及其微调方法,如CLIP-Adapter和Tip-Adapter,这些方法显著提升了视觉-语言少样本学习能力,并在视觉分类、问答和迁移学习等任务中表现优异,优化了模型性能和适应性。

微调CLIP的最后视觉投影器:少样本的丰富性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码