Hugging Face推出Community Evals功能,允许在Hub上创建基准数据集排行榜并自动收集评估结果。该系统基于Git基础设施,确保提交的透明性、可版本化和可重复性。用户可通过拉取请求提交评估结果,提升评估的一致性和可追溯性,目前处于测试阶段。
本研究提出了一种利用大语言模型提升代码注释质量的方法,评估结果显示该方法在多个质量维度上显著改善了注释质量,有助于数据安全维护。
本研究提出利用知识图谱作为外部信息源,解决大型语言模型在自然语言处理中的幻觉和信息缺失问题。通过层次表示,提升了模型在零样本实体消歧中的表现,评估结果表明该方法优于未增强和仅基于描述的模型。
本研究提出了DocPuzzle基准,用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明,慢思维推理模型优于一般指令模型,而蒸馏推理模型与教师模型之间存在显著差距。
本研究提出了一个针对领域适应中选择方法的框架,区分五种场景并提供相应建议。评估结果表明该框架有效,为研究人员和从业者提供指导。
本研究探讨了任务导向对话系统中用户挫败感的检测,评估结果显示,基于大型语言模型的方法在F1得分上比其他开源方法提高了16%。
本报告介绍了开源多语言E5文本嵌入模型的训练方法和评估结果,提供了三种不同大小的嵌入模型,平衡了推理效率和嵌入质量。训练过程遵循英文E5模型的方法,包括对10亿个多语言文本对进行对比预训练和微调。引入了一种新的指令调整嵌入模型,性能与最先进英文模型相当。模型发布信息可在指定网址找到。
北大/通研院提出了新的基准数据集LooGLE,用于评估大语言模型对长文本的理解能力。数据集包含近800个超长文档,构建了6千个不同领域和类别的任务/问题。评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高。LooGLE为长上下文LLMs提供了全面评估,为未来增强型模型的开发提供了启示。
该研究介绍了一种基于提示生成视频的方法,通过训练视频模型,利用低质量视频和合成高质量图像,成功生成高质量的视频。评估结果显示该方法在图片质量、动作和概念组合方面表现出优越性。
MIA-Bench是一个新的基准测试,用于评估多模态大型语言模型(MLLMs)在严格遵循复杂指令方面的能力。该基准测试包含了400个图像提示对,每个对都经过精心设计,旨在挑战模型在生成满足特定请求模式的准确响应时遵循分层指令的能力。评估结果显示出性能的显著差异,突出了指令准确性改进的领域。此外,我们创建了额外的训练数据,并探索了有监督的微调方法,以增强模型在严格遵循指令的能力的同时不影响其他任务的性能。希望这个基准测试可以作为衡量MLLM遵循指令的工具,指导未来MLLM训练方法的发展。
MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题,涵盖六个核心学科和30个学科子领域。评估结果显示,即使是先进的GPT-4V也只能达到56%的准确率。MMMU有望推动下一代多模态基础模型的发展。
本文提出了一种改善视频描述生成的方法,通过建模视频帧和描述概念之间的高阶交互。该方法通过存储先前的视觉注意力,在已经看过和描述过的内容的基础上进行描述。评估结果表明,该方法优于以前的视频描述方法。
该论文介绍了一种扩展的 Mirror Descent 方法,用于克服合作多智能体强化学习设置中的挑战。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法通过解决信任域问题的近似解来迭代更新智能体策略,保证了稳定性并提高了性能。HAMDPO 在 Multi-Agent MuJoCo 和 StarCraftII 任务上的评估结果表明其优越性,是解决合作 MARL 问题的一种有希望的方法。
该文章介绍了一种利用答案提取方法解决时间相关问题的工作,并提出了一个新的数据集和深度学习模型。评估结果显示,该模型适应处理时间相关问题,但需要直接从文本中提取答案。
该研究介绍了一种基于提示生成视频的方法,通过训练视频模型,利用低质量视频和合成高质量图像,成功生成高质量的视频。评估结果显示该方法在图片质量、动作和概念组合方面表现优越。
阿里巴巴的论文介绍了PolarDB数据库中实现低延迟强一致性读取的方法,通过将重做日志传送到只读节点提高性能。论文还介绍了线性化读取的方法,包括屏障和冲洗。评估结果显示PolarDB-SCC方案非常成功。
本文介绍了从维基百科数据中创建特定语言BERT模型的自动化流程,并引入了42个新的模型。评估结果显示,这些特定语言模型在某些语言方面有显著改进。初步结果为了解特定语言模型的最佳条件提供了第一步。
该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,涵盖了各种图像。评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。
该研究提出了一种新颖的神经模型,用于生成现代法语诗歌。该模型由两个预训练的神经模型组成,经过微调以进行诗歌生成任务。评估结果表明,该模型能够成功地生成法语诗歌,输出诗歌的典型性和情感得分最低为3.57分,可读性得分最高为3.79分。
该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,通过训练和测试几种生成和检索模型来解决 VQG 这个任务。评估结果表明,尽管这样的模型为各种图像提出了合理的问题,但与人类性能的差距仍然很大。
完成下面两步后,将自动完成登录并继续当前操作。