MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包括11500个多模态问题,涵盖六个核心学科和30个学科和183个子领域。MMMU侧重于使用领域特定知识进行高级感知和推理,对14个模型进行了评估,结果显示有改进空间。MMMU将推动构建下一代多模态基础模型。
检索增强生成(RAG)对生成型人工智能应用至关重要。RAG通过领域特定知识增强AI模型,使回答更准确和具有上下文。它还降低了内存需求和计算成本。RAG允许成本有效的更新和实时相关性。然而,实施RAG在流量管理、安全性和数据质量方面带来挑战。成功整合RAG到GenAI堆栈需要适当的规划和措施。
该文章介绍了一种填补综合性人力资源任务基准的方法,通过提取领域特定知识和使用技能-职业图来生成上下文,该基准可以满足各种人力资源任务的需求。实验结果表明,该基准的学生模型在性能上与教师模型相当或更好。此外,该方法还探索了在零-shot和弱监督方式下的实用性。数据集和代码已发布以促进进一步的研究和应用。
机器翻译的进展提高了翻译品质,但对文学文本的翻译仍是挑战。TransAgents是一个基于大型语言模型的多智能体框架,模拟传统翻译流程,解决文学作品翻译需求。实证研究结果表明TransAgents在领域特定知识要求较高的流派中优于人工参考翻译。提出了未来研究的方向。
本文研究了计算病理学的视觉表征学习问题,通过利用大规模图像-文本对和病理学中的领域特定知识。通过知识增强的视觉-语言预训练方法,成功提高了跨模态检索、零样本分类和零样本肿瘤亚型划分的性能。
该文章介绍了一种填补综合性人力资源任务基准的方法,通过提取领域特定知识和使用技能-职业图来生成上下文,该基准可以满足各种人力资源任务的需求。实验证明,该基准的学生模型性能接近或优于教师模型,并在零-shot和弱监督方式下探索了技能提取和简历-职位描述匹配的实用性。数据集和代码已发布以促进进一步研究和应用。
本文提出了新的跨语言生物医学实体链接任务和基准测试,并研究了单语和多语言语言模型在该任务中的能力。同时解决了资源丰富语言向资源贫乏语言传递领域特定知识的挑战,并提出并评估了跨语言传递方法。研究结果表明,领域特定传递方法在所有目标语言中都有持续提高,有时可高达20个Precision@1点,无需目标语言具有领域内知识和并行数据。
本文提出了一个新的跨语言生物医学实体链接任务,并建立了一个涵盖10种语言的基准测试。研究了标准、知识增强的单语和多语言语言模型在标准英语生物医学实体链接任务之外的能力,并解决了把资源丰富的语言中的领域特定知识传递给资源贫乏的语言的挑战。提出并评估了一系列的跨语言传递方法,研究表明,本文提出的领域特定传递方法在所有目标语言中均获得了持续的提高,有时可高达20个Precision@1点,而无需目标语言具有领域内的知识和对应的并行数据。
完成下面两步后,将自动完成登录并继续当前操作。