Hugging Face推出Community Evals功能,允许在Hub上创建基准数据集排行榜并自动收集评估结果。该系统基于Git基础设施,确保提交的透明性、可版本化和可重复性。用户可通过拉取请求提交评估结果,提升评估的一致性和可追溯性,目前处于测试阶段。
本研究提出了一种利用大语言模型提升代码注释质量的方法,评估结果显示该方法在多个质量维度上显著改善了注释质量,有助于数据安全维护。
本研究提出利用知识图谱作为外部信息源,解决大型语言模型在自然语言处理中的幻觉和信息缺失问题。通过层次表示,提升了模型在零样本实体消歧中的表现,评估结果表明该方法优于未增强和仅基于描述的模型。
本研究提出了DocPuzzle基准,用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明,慢思维推理模型优于一般指令模型,而蒸馏推理模型与教师模型之间存在显著差距。
本研究提出了一个针对领域适应中选择方法的框架,区分五种场景并提供相应建议。评估结果表明该框架有效,为研究人员和从业者提供指导。
本研究探讨了任务导向对话系统中用户挫败感的检测,评估结果显示,基于大型语言模型的方法在F1得分上比其他开源方法提高了16%。
本研究提出了一种上下文化评估协议,旨在解决语言模型评估中的上下文缺失问题。研究表明,上下文显著影响评估结果,揭示了模型在不同情境下的表现差异,促进了对模型行为的新理解。
本研究探讨了大型组织中专家寻找系统的偏差评估,分析了自动化推荐对评估结果的影响,并提出改进的注释流程,以避免系统的过度估计,确保评估结果的真实性和有效性。这些发现有助于优化专家寻找的基准创建和选择。
北大/通研院提出了新的基准数据集LooGLE,用于评估大语言模型对长文本的理解能力。数据集包含近800个超长文档,构建了6千个不同领域和类别的任务/问题。评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高。LooGLE为长上下文LLMs提供了全面评估,为未来增强型模型的开发提供了启示。
研究表明,人类对语言模型的偏好和错误敏感度较低,倾向于支持符合自身观点的回答。高级语言模型如GPT-4-Turbo更注重正确性和清晰度。通过对齐技术,模型评分可被操控,显著影响评估结果。研究探讨了多种对齐方法及人类反馈在大型语言模型中的应用,并提出新的训练策略以提高模型对齐性能。
阿里巴巴的论文介绍了PolarDB数据库中实现低延迟强一致性读取的方法,通过将重做日志传送到只读节点提高性能。论文还介绍了线性化读取的方法,包括屏障和冲洗。评估结果显示PolarDB-SCC方案非常成功。
本文介绍了从维基百科数据中创建特定语言BERT模型的自动化流程,并引入了42个新的模型。评估结果显示,这些特定语言模型在某些语言方面有显著改进。初步结果为了解特定语言模型的最佳条件提供了第一步。
该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,涵盖了各种图像。评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。
该研究提出了一种新颖的神经模型,用于生成现代法语诗歌。该模型由两个预训练的神经模型组成,经过微调以进行诗歌生成任务。评估结果表明,该模型能够成功地生成法语诗歌,输出诗歌的典型性和情感得分最低为3.57分,可读性得分最高为3.79分。
该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,通过训练和测试几种生成和检索模型来解决 VQG 这个任务。评估结果表明,尽管这样的模型为各种图像提出了合理的问题,但与人类性能的差距仍然很大。
完成下面两步后,将自动完成登录并继续当前操作。