标签

 语言模型 

相关的文章:

这是一篇关于大型语言模型应用与研究的综述,包括减弱性别偏差、稳健水印、世界模型评估等内容。

基于大型语言模型的 FMRI 编码神经认知障碍患者的语言功能

原文约300字,阅读约需1分钟。发表于:

通过使用基于大型语言模型(LLM)的功能性磁共振成像编码和脑得分,该研究探讨了老年认知障碍(NCD)成年人的语言相关功能变化,解决了现有研究主要集中在健康年轻成人上而忽视了老年认知障碍人群以及认知水平相关性的局限性,并分析了整个脑和语言相关区域的脑得分与认知得分之间的相关性,发现较高的认知能力与更好的脑得分对应,并且相关性在中颞回达到峰值,突显了功能性磁共振成像编码模型和脑得分在检测...

该研究使用大型语言模型(LLM)的功能性磁共振成像编码和脑得分,探讨了老年认知障碍(NCD)成年人的语言相关功能变化。研究发现,较高的认知能力与更好的脑得分对应,并且相关性在中颞回达到峰值。这突显了功能性磁共振成像编码模型和脑得分在检测NCD患者早期功能性变化方面的潜力。

相关推荐 去reddit讨论

文化理解的视觉语言模型基准测试

原文约400字,阅读约需1分钟。发表于:

这篇研究介绍了 CulturalVQA,它是一个用于评估 VLM 的地理多样性文化理解能力的视觉问答基准。通过对 GPT-4V 和 Gemini 等模型在 CulturalVQA 上的性能评估,发现它们在不同地区的文化理解水平存在差异,其中北美地区的文化理解能力较强,而非洲地区的性能较低。研究还观察到在不同文化方面存在性能差异,其中服饰、仪式和传统的表现优于食物和饮品。这些差异帮助我们识别...

本研究介绍了CulturalVQA,用于评估VLM的文化理解能力的视觉问答基准。通过对GPT-4V和Gemini等模型在CulturalVQA上的性能评估,发现它们在不同地区的文化理解水平存在差异。研究还观察到在不同文化方面存在性能差异,其中服饰、仪式和传统的表现优于食物和饮品。这些差异帮助我们识别VLM在文化理解方面的不足,并展示了CulturalVQA作为一个评估各种文化理解能力的全面数据集的潜力。

相关推荐 去reddit讨论

Q-Sparse: 所有大型语言模型可以完全稀疏激活

原文约400字,阅读约需1分钟。发表于:

我们介绍了一种名为 Q-Sparse 的简单而有效的方法,用于训练稀疏激活的大型语言模型(LLMs),可以在推理过程中带来显著的效率提升。

本文介绍了E-Sparse修剪度量设计,用于提高大型语言模型的稀疏性准确性。通过信息熵和创新技术,E-Sparse能快速优化信息分布并应对稀疏性对准确性的影响。实验结果显示,E-Sparse能加速模型推理并节省内存。

相关推荐 去reddit讨论

基础性自动评估器:驯服大型语言模型以获得更好的自动评价

原文约300字,阅读约需1分钟。发表于:

使用大型语言模型进行自动评分的研究,提出了 FLAMe 模型家族,通过训练、优化和评估,表明 FLAMe 在各种任务上的性能要优于其他专有数据训练的模型,包括生成模型和评估模型。

本文介绍了一种名为FLAME的新方法,利用大型语言模型进行分类体系扩展。FLAME通过少量样本中的提示提取语言模型内在知识,并通过强化学习进行微调,以实现更准确的预测。实验结果显示,FLAME在真实场景中取得了显著改善,准确性提高了18.5%,Wu & Palmer指标提高了12.3%。通过案例研究、误差分析和消融研究,阐明了FLAME的优点和缺点。

相关推荐 去reddit讨论

Graphusion:在 NLP 教育中利用大型语言模型进行科学知识图融合和构建

原文约400字,阅读约需1分钟。发表于:

Graphusion 是一种零样本知识图谱构建框架,其核心融合模块提供了三元组的全局视图,包括实体合并、冲突解决和新的三元组发现。在自然语言处理领域,Graphusion 可以应用于 TutorQA 中,这是一个经过专家验证的新的图推理和 QA 基准,包括六个任务和总共 1,200 个 QA 对。评估结果表明在链接预测准确率上,Graphusion 超过了有监督的基准最多...

Graphusion是一种零样本知识图谱构建框架,适用于自然语言处理。在TutorQA中,Graphusion的链接预测准确率超过有监督的基准最多10%。概念实体提取和关系识别的人工评估分数分别为2.92和2.37。

相关推荐 去reddit讨论

VGBench:对矢量图形理解和生成的大型语言模型评价

原文约600字,阅读约需2分钟。发表于:

通过使用 VGBench 数据集和评估管道,我们发现大型语言模型 (LLMs) 在处理矢量图方面表现出很强的能力,尤其在视觉理解和生成方面,但在低级格式 (SVG) 上表现不佳。

LLM4VG基准测试评估不同LLM模型在视频对齐任务上的性能。实验比较了基于文本-视频对训练的视频LLM和与预训练的视觉描述模型结合的LLM。结果显示,现有的VidLLM在视频对齐性能方面仍需改进,而LLM和视觉模型的组合显示出初步的视频对齐能力,有改进潜力。

相关推荐 去reddit讨论

深入理解大型语言模型在自动启发式设计中的进化搜索重要性

原文约300字,阅读约需1分钟。发表于:

自动启发式设计是近期引起广泛关注的一个研究领域,本研究通过大规模基准测试,探究了基于大语言模型的进化程序搜索方法在自动启发式设计中的重要性及进展,为未来进化程序搜索算法的发展做出了实证贡献。

本文介绍了将自适应进化策略与大型语言模型相结合的方法,提高了复杂优化过程的可解释性。通过捕获详细的日志并利用大型语言模型生成简洁的摘要,使优化过程更易理解。研究结果展示了使用大型语言模型来弥合优化算法与可解释性之间的差距的潜力。

相关推荐 去reddit讨论

TCM-FTP:中药方剂预测的大型语言模型微调

原文约300字,阅读约需1分钟。发表于:

通过在 DigestDS 上进行严格预训练语言模型(LLMs)的监督微调,TCM-FTP 方法在中医处方预测上取得了显著的 F1 分数 0.8031,并在剂量预测方面表现出卓越的准确性,达到了规范化均方误差 0.0604。

研究者提出了一种多阶段训练方法,将大型语言模型(LLMs)应用于医疗保健中。通过该方法,医学LLM(Qilin-Med)在测试中表现出显著的性能提升,突破了其他模型的准确率。这显示了该训练方法在医疗应用中的优势。

相关推荐 去reddit讨论

Think-on-Graph 2.0: 基于知识图引导的深度可解释大型语言模型推理

原文约300字,阅读约需1分钟。发表于:

Retrieval-augmented generation (RAG) has been enhanced with Think-on-Graph 2.0, aligning questions with knowledge graphs to improve information collection, integration, and precision, ensuring...

GNN-RAG是一种将LLMs的语言理解能力与GNNs的推理能力相结合的新方法,通过实验证明在KGQA基准测试中取得了最先进的性能,并在多跳和多实体问题上表现出色。

相关推荐 去reddit讨论

怎样选择提示很重要:利用大型语言模型提升社会科学文本注释

原文约400字,阅读约需1分钟。发表于:

大型语言模型在社会科学文本标注任务中应用广泛,其性能超过人类工作者且成本更低。然而,我们以往对选择提示对标注准确性的影响尚未进行过研究。在本研究中,我们展示了性能在不同提示之间存在巨大差异,并运用自动提示优化的方法系统地设计出高质量提示。同时,我们还提供了一个简单的基于浏览器实现的方法链接给社区。

最近的研究发现,语言模型在零-shot设置下可以执行社会科学任务的注释。研究人员进行了多提示实验,发现提示设计对模型的遵从和准确性有很大影响。最佳的提示设置取决于任务,微小的提示更改会导致生成标签分布上的巨大变化。这项研究对研究人员和从业者具有警示和实践指南的作用。

相关推荐 去reddit讨论