小红花·文摘

腾讯混元升级了AI绘画微调方法，通过Direct-Align和语义相对偏好优化（SRPO）显著提升了图像的真实感和美学评分，人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛，解决了传统模型的优化局限性，并支持在线调整奖励信号，生成图像质量显著提升。

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

量子位 ·

本文介绍了一种结合强化学习与视觉-语言-动作模型的微调方法ConRFT，旨在提升机器人任务的样本效率和安全性。ConRFT通过离线和在线两个阶段，利用人类示范数据和一致性策略，解决了传统方法在真实环境中的挑战，增强了智能机械臂的精准性和泛化能力。

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

结构之法算法之道 ·

本研究探讨了医学视觉问答中的强化学习微调方法，分析了模型初始化、语义对齐和奖励机制等关键因素。实验结果显示，基于GRPO的微调在准确性和推理质量上优于传统方法。

Application of Effective Reinforcement Learning Fine-Tuning Methods for Medical Visual Question Answering in Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种基于块循环矩阵的微调方法，旨在降低大规模语言模型的计算和存储成本。该方法结合一维傅里叶变换，显著减少参数和计算量，同时在下游任务中保持或提升性能，展示了频域微调的潜力。

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

Application of Effective Reinforcement Learning Fine-Tuning Methods for Medical Visual Question Answering in Vision-Language Models

Block Circulant Adapters for Large Language Models

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

Reinforcement Learning for Game Description Generation with Syntax and Gameplay Alignment

Self-Training Elicits Concise Reasoning in Large Language Models

微调视觉-语言-动作模型：优化速度和成功率

大语言模型的扩散微调

A Multi-Encoder Frozen-Decoder Approach for Fine-Tuning Large Language Models

Efficient Fine-Tuning Method for Text Embedding Models in Information Retrieval: Contrastive Learning Penalty (CLP)

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual Large Language Models: An Extensive Investigation

Expert Mixture Research in Dense Retrieval

Leveraging Large Language Models to Build Active Merchant Non-Player Characters

BoRA: Bidirectional Weight Decomposition for Low-Rank Adaptation

通过知识适应的标题增强视觉推理

LoRA与全面微调：等效性的幻觉

降级语言模型促进公平性

跨器官和跨扫描仪腺癌分割：使用Rein微调视觉基础模型

细致分析低样本和少样本目标检测的数据增强策略

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

ConRFT——Consistency Policy下RL微调VLA的方法：离线通过演示数据微调(结合Q损失和BC损失)，后在线RL微调，且引入人工干预

Application of Effective Reinforcement Learning Fine-Tuning Methods for Medical Visual Question Answering in Vision-Language Models

Block Circulant Adapters for Large Language Models

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

Reinforcement Learning for Game Description Generation with Syntax and Gameplay Alignment

Self-Training Elicits Concise Reasoning in Large Language Models

微调视觉-语言-动作模型：优化速度和成功率

大语言模型的扩散微调

A Multi-Encoder Frozen-Decoder Approach for Fine-Tuning Large Language Models

Efficient Fine-Tuning Method for Text Embedding Models in Information Retrieval: Contrastive Learning Penalty (CLP)

Cross-Lingual Transfer of Debiasing and Detoxification in Multilingual Large Language Models: An Extensive Investigation

Expert Mixture Research in Dense Retrieval

Leveraging Large Language Models to Build Active Merchant Non-Player Characters

BoRA: Bidirectional Weight Decomposition for Low-Rank Adaptation

通过知识适应的标题增强视觉推理

LoRA与全面微调：等效性的幻觉

降级语言模型促进公平性

跨器官和跨扫描仪腺癌分割：使用Rein微调视觉基础模型

细致分析低样本和少样本目标检测的 数据增强策略

细致分析低样本和少样本目标检测的数据增强策略