标签

 大语言模型 

相关的文章:

本列表汇集了关于大语言模型的最新研究与应用,涵盖多模态处理、结构化输出、IT治理等多个领域,展示了大语言模型的广泛潜力与未来发展方向。

通过混合预填充/解码/验证调度在高效元内核上应对生产大语言模型服务系统中的动态性

原文中文,约300字,阅读约需1分钟。发表于:

本研究解决了在生产级大语言模型(LLM)服务系统中,由于动态和不可预测的输入输出长度而导致的工作负载变异性问题。通过引入XY-Serve系统,本研究提出了一种分解计算的抽象机制,显著提高了在AI加速器上的效率,实验结果表明,相较于现有基准,系统在端到端吞吐量上提升了高达89%。

本研究提出XY-Serve系统,解决了生产级大语言模型服务中的工作负载变异性问题,显著提升了AI加速器效率,端到端吞吐量提高了89%。

相关推荐 去reddit讨论

通过直接优势策略优化提升大语言模型的多步推理能力

原文中文,约300字,阅读约需1分钟。发表于:

本研究针对大语言模型(LLMs)推理能力提升中存在的稀疏奖励和不稳定性问题,提出了一种新颖的离线强化学习算法——直接优势策略优化(DAPO)。该方法通过引入评价函数在每一步预测推理准确性,以生成密集信号,从而有效优化生成策略。实验证明,DAPO能显著提高数学和代码处理能力,展现出其在大语言模型中的潜在影响。

本研究提出了一种新颖的离线强化学习算法——直接优势策略优化(DAPO),旨在解决大语言模型推理中的稀疏奖励和不稳定性问题。实验结果表明,DAPO在数学和代码处理能力上有显著提升。

相关推荐 去reddit讨论

异类检测何去何从?大语言模型和视觉语言模型的聚焦

原文中文,约200字,阅读约需1分钟。发表于:

本研究解决了视频异常检测(VAD)领域中可解释性、时间推理和在动态开放世界场景中的概化等重要挑战,提出了一种整合大语言模型和视觉语言模型的新方法。文章重点介绍了如何通过语义理解和动作特征来提升检测能力,显著推动了VAD的发展,尤其是在少样本和零样本检测方面的应用潜力。

本研究提出了一种新方法,结合大语言模型与视觉语言模型,解决视频异常检测中的可解释性和时间推理挑战,提升检测能力,推动少样本和零样本检测应用。

相关推荐 去reddit讨论

KunServe:具有参数中心内存管理的弹性高效大语言模型服务

原文中文,约300字,阅读约需1分钟。发表于:

本研究针对当前大语言模型服务中由于负载突发引起的GPU内存耗尽问题,提出了一种基于参数中心的方法,通过选择性丢弃复制参数为请求留出宝贵内存。研究发现,KUNSERVE在节省内存的同时,利用远程注意力机制提升服务性能,评估结果显示其在节流情况下请求的尾部响应时间减少了高达27.3倍。

本研究提出了一种基于参数中心的方法,解决大语言模型服务中的GPU内存耗尽问题。KUNSERVE通过选择性丢弃复制参数,节省内存并提升服务性能,尾部响应时间减少高达27.3倍。

相关推荐 去reddit讨论

炼石成丹:大语言模型微调实战系列(三)模型评估篇

原文中文,约3800字,阅读约需9分钟。发表于:

背景 随着生成式 AI 技术的快速发展,大语言模型(LLM)在各个领域的应用日益广泛。然而,如何有效评估这些模 […]

随着生成式AI技术的发展,大语言模型(LLM)的评估变得愈发重要。评估方式包括人工和自动,后者提高了效率并降低了成本。本文介绍了一种基于亚马逊云科技的自动化评估方案,涵盖数据输入、执行和结果处理,支持多维度分析。评估结果显示,Claude Sonnet 3.5在准确性和稳定性上优于Llama 3.2,为企业提供了可靠的模型选择依据。

炼石成丹:大语言模型微调实战系列(三)模型评估篇
相关推荐 去reddit讨论

炼石成丹:大语言模型微调实战系列(二)模型微调篇

原文中文,约7700字,阅读约需19分钟。发表于:

模型的微调 在准备好高质量数据之后,我们就可以开始进入模型微调的环节。数据准备的环节往往是最消耗时间的环节,而 […]

模型微调涉及选择合适的框架和方法,如全参数微调、PEFT和LoRA。需考虑计算资源和性能,使用Amazon SageMaker或ModelHub可简化操作。监控指标包括loss和准确度,若结果不理想,可通过数据增强和调整超参数优化。微调是一个循环迭代的过程,最终需评估模型效果并进行部署。

炼石成丹:大语言模型微调实战系列(二)模型微调篇
相关推荐 去reddit讨论

炼石成丹:大语言模型微调实战系列(一)数据准备篇

原文中文,约6200字,阅读约需15分钟。发表于:

背景 随着大型语言模型(LLM)的迅猛发展,如何有效利用这些强大的预训练模型解决特定领域问题已成为生成式 AI […]

随着大型语言模型的发展,微调技术成为提升模型在特定任务表现的关键。微调适用于专业知识增强、任务优化和语言本地化等场景。成功微调依赖于高质量数据集,需经过数据获取、清洗和质量控制等步骤。通过传统和基于LLM的数据扩增方法,可以提高数据多样性,进而提升模型性能。数据准备是一个迭代过程,需要根据模型表现不断调整。

炼石成丹:大语言模型微调实战系列(一)数据准备篇
相关推荐 去reddit讨论

在心理治疗背景下应用大语言模型和主题建模

原文中文,约600字,阅读约需2分钟。发表于:

本研究探讨了如何利用大语言模型分析心理治疗环境中的治疗师言辞,填补了该领域对自动化分析工具的需求。通过应用BERTopic这一基于机器学习的主题建模工具,研究发现了不同治疗师群体中的语言模式和主题的稳定性,为提高治疗师实践和培训提供了新视角。这一工作为心理治疗中机器学习的应用提供了重要的见解,并有望提升治疗效果和临床监督。

本研究利用大语言模型分析心理治疗师的言辞,填补自动化分析工具的需求。通过BERTopic工具,识别不同治疗师的语言模式,为提升治疗效果和临床监督提供新视角。

相关推荐 去reddit讨论

HumanVBench:探索多模态大语言模型的人本视频理解能力与合成基准数据

原文中文,约400字,阅读约需1分钟。发表于:

该研究解决了多模态大语言模型在人本视频理解方面的不足,提出了一个创新的基准HumanVBench,以更好地评估视频内容中的情感、行为和语言的复杂性。通过设计17个任务,该基准能够有效衡量当前视频模型在跨模态和时间对齐上的性能限制,推动人本多模态视频理解的进步。

该研究提出了HumanVBench基准,旨在评估多模态大语言模型在视频理解中的表现。通过设计17个任务,衡量视频模型在情感、行为和语言复杂性方面的性能限制,推动该领域的发展。

相关推荐 去reddit讨论

事实还是虚构?基准测试现代大语言模型在模糊问答中的表现及引用

发表于:

本研究解决了现代大语言模型(LLMs)在模糊问答任务中的准确性和引用表现的不足。我们提出了一种冲突感知的提示方法,显著提高了模型处理多重有效答案的能力及引用准确性。研究结果强调了应对模糊性和提供可靠引用材料的重要性,为未来可信赖的问答系统的改进奠定了基础。

相关推荐 去reddit讨论