小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Hugging Face推出透明模型基准评估的Community Evals

Hugging Face推出Community Evals功能,允许在Hub上创建基准数据集排行榜并自动收集评估结果。该系统基于Git基础设施,确保提交的透明性、可版本化和可重复性。用户可通过拉取请求提交评估结果,提升评估的一致性和可追溯性,目前处于测试阶段。

Hugging Face推出透明模型基准评估的Community Evals

InfoQ
InfoQ · 2026-02-19T10:55:00Z

本研究提出了一种利用大语言模型提升代码注释质量的方法,评估结果显示该方法在多个质量维度上显著改善了注释质量,有助于数据安全维护。

AI-Assisted Code Comment Improvement

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出利用知识图谱作为外部信息源,解决大型语言模型在自然语言处理中的幻觉和信息缺失问题。通过层次表示,提升了模型在零样本实体消歧中的表现,评估结果表明该方法优于未增强和仅基于描述的模型。

Enhancing the Application of Large Language Models in Entity Disambiguation Using Knowledge Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出了DocPuzzle基准,用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明,慢思维推理模型优于一般指令模型,而蒸馏推理模型与教师模型之间存在显著差距。

DocPuzzle:评估现实长篇上下文推理能力的过程意识基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

本研究提出了一个针对领域适应中选择方法的框架,区分五种场景并提供相应建议。评估结果表明该框架有效,为研究人员和从业者提供指导。

A Problem-Oriented Framework for Domain Adaptation in Machine Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本研究探讨了任务导向对话系统中用户挫败感的检测,评估结果显示,基于大型语言模型的方法在F1得分上比其他开源方法提高了16%。

Stupid Robot, I Want to Talk to a Human! User Frustration Detection in Task-Oriented Dialogue Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本报告介绍了开源多语言E5文本嵌入模型的训练方法和评估结果,提供了三种不同大小的嵌入模型,平衡了推理效率和嵌入质量。训练过程遵循英文E5模型的方法,包括对10亿个多语言文本对进行对比预训练和微调。引入了一种新的指令调整嵌入模型,性能与最先进英文模型相当。模型发布信息可在指定网址找到。

Ruri:日本通用文本嵌入模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

北大/通研院提出了新的基准数据集LooGLE,用于评估大语言模型对长文本的理解能力。数据集包含近800个超长文档,构建了6千个不同领域和类别的任务/问题。评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高。LooGLE为长上下文LLMs提供了全面评估,为未来增强型模型的开发提供了启示。

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

量子位
量子位 · 2024-08-07T07:13:13Z

该研究介绍了一种基于提示生成视频的方法,通过训练视频模型,利用低质量视频和合成高质量图像,成功生成高质量的视频。评估结果显示该方法在图片质量、动作和概念组合方面表现出优越性。

FreeLong: 无需训练的长视频生成与 SpectralBlend 时域注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z
MIA-Bench:迈向更好的多模态大型语言模型指令遵循评估

MIA-Bench是一个新的基准测试,用于评估多模态大型语言模型(MLLMs)在严格遵循复杂指令方面的能力。该基准测试包含了400个图像提示对,每个对都经过精心设计,旨在挑战模型在生成满足特定请求模式的准确响应时遵循分层指令的能力。评估结果显示出性能的显著差异,突出了指令准确性改进的领域。此外,我们创建了额外的训练数据,并探索了有监督的微调方法,以增强模型在严格遵循指令的能力的同时不影响其他任务的性能。希望这个基准测试可以作为衡量MLLM遵循指令的工具,指导未来MLLM训练方法的发展。

MIA-Bench:迈向更好的多模态大型语言模型指令遵循评估

Apple Machine Learning Research
Apple Machine Learning Research · 2024-07-08T00:00:00Z

MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题,涵盖六个核心学科和30个学科子领域。评估结果显示,即使是先进的GPT-4V也只能达到56%的准确率。MMMU有望推动下一代多模态基础模型的发展。

MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文提出了一种改善视频描述生成的方法,通过建模视频帧和描述概念之间的高阶交互。该方法通过存储先前的视觉注意力,在已经看过和描述过的内容的基础上进行描述。评估结果表明,该方法优于以前的视频描述方法。

MeMSVD: 使用增量 SVD 捕捉长程时域结构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

该论文介绍了一种扩展的 Mirror Descent 方法,用于克服合作多智能体强化学习设置中的挑战。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法通过解决信任域问题的近似解来迭代更新智能体策略,保证了稳定性并提高了性能。HAMDPO 在 Multi-Agent MuJoCo 和 StarCraftII 任务上的评估结果表明其优越性,是解决合作 MARL 问题的一种有希望的方法。

多智能体 MDPs 中的自适应对手策略检测:利用运行误差估计的实时策略切换识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-10T00:00:00Z

该文章介绍了一种利用答案提取方法解决时间相关问题的工作,并提出了一个新的数据集和深度学习模型。评估结果显示,该模型适应处理时间相关问题,但需要直接从文本中提取答案。

上下文中基于对话的时态表达规范化的学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

该研究介绍了一种基于提示生成视频的方法,通过训练视频模型,利用低质量视频和合成高质量图像,成功生成高质量的视频。评估结果显示该方法在图片质量、动作和概念组合方面表现优越。

EffiVED: 基于文本指令扩散模型的高效视频编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

阿里巴巴的论文介绍了PolarDB数据库中实现低延迟强一致性读取的方法,通过将重做日志传送到只读节点提高性能。论文还介绍了线性化读取的方法,包括屏障和冲洗。评估结果显示PolarDB-SCC方案非常成功。

PolarDB-SCC:阿里低延迟强一致性读取的云数据库分析

极道
极道 · 2023-12-06T03:34:00Z

本文介绍了从维基百科数据中创建特定语言BERT模型的自动化流程,并引入了42个新的模型。评估结果显示,这些特定语言模型在某些语言方面有显著改进。初步结果为了解特定语言模型的最佳条件提供了第一步。

PhayaThaiBERT:用未吸收外借词增强预训练泰语语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-21T00:00:00Z

该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,涵盖了各种图像。评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。

孟加拉语中的视觉问题生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z

该研究提出了一种新颖的神经模型,用于生成现代法语诗歌。该模型由两个预训练的神经模型组成,经过微调以进行诗歌生成任务。评估结果表明,该模型能够成功地生成法语诗歌,输出诗歌的典型性和情感得分最低为3.57分,可读性得分最高为3.79分。

使用深度学习技术生成的乌尔都诗歌

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z

该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,通过训练和测试几种生成和检索模型来解决 VQG 这个任务。评估结果表明,尽管这样的模型为各种图像提出了合理的问题,但与人类性能的差距仍然很大。

中文自然语言问题的自动数据可视化生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码