小红花·文摘

本研究提出了S-GRPO和T-SPMO两种方法，提升了Qwen2-1.5B模型在SVAMP基准测试中的准确性，验证了在资源有限情况下强化学习调优的潜力。

Reinforcement Learning-Based LLM Inference Under Memory Constraints

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，通过量化低秩适配(QLoRA)对4GB显存系统进行阿拉伯语言处理的Qwen2-1.5B模型微调，解决了阿拉伯自然语言处理中的形态复杂性和方言变异问题。实验结果表明，该模型在文本分类、问答和方言识别等任务上性能显著提升，最终损失收敛至0.1083，为低资源语言适配和大规模语言模型的高效微调提供了重要贡献。

Resource-Aware Arabic Large Language Model Creation: Model Adaptation, Integration, and Multi-Domain Testing

BriefGPT - AI 论文速递 ·