小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了CharacterBench基准,涵盖25个角色类别和22,859个样本,旨在全面评估大型语言模型的角色定制能力。通过定义11个评估维度并开发CharacterJudge模型,提升了评估效率,实验结果表明模型的角色定制能力显著增强。

CharacterBench:大型语言模型角色定制的基准评测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
软件质量

软件质量是指软件满足用户需求和功能要求的程度。高质量软件能降低维护成本,提高用户满意度,增强企业信誉。评估维度包括功能性、可靠性、可用性、效率、可维护性、可移植性和安全性。确保软件质量需要工程实践和测试,以满足市场和用户需求。

软件质量

DEV Community
DEV Community · 2024-10-23T19:24:16Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,希望SEED-Bench能为未来的研究提供见解。建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。

SEED-Story:利用大型语言模型进行多模式长篇故事生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来的研究提供见解。

多模态编辑中的关键问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来的研究提供见解。

SEED-Bench-2-Plus:基于多模态大型语言模型的文本丰富视觉理解基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-25T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来的研究提供见解。

AIR-Bench: 大规模音频语言模型的生成理解基准评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来研究提供见解。

多模态理解排行榜:文本与图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示了现有MLLMs的局限性,并建立了一个排行榜为社区提供评估和研究模型能力的平台。

MM-SAP:评估多模态大型语言模型在感知领域自感知能力的综合基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-15T00:00:00Z

本文介绍了ElitePLM对预训练语言模型进行大规模实证研究,设计了四个评估维度来衡量PLMs的能力。实验结果显示PLMs在不同测试中表现出色,微调对数据敏感,具有可转移性。该论文可指导未来工作选择和设计特定任务的PLMs。

MLP 指南针:当 MLP 与 PLM 相结合时学到了什么?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-03T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解的评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示现有MLLMs的局限性,为未来的研究提供见解。

ChartBench:图表中的复杂可视推理基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示现有MLLMs的局限性,希望SEED-Bench为未来的研究提供见解。将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。

MVBench:全面多模式视频理解基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-28T00:00:00Z

本研究引入了SEED-Bench基准测试,用于评估MLLMs的生成理解能力,包含19K个准确的多项选择问题,涵盖了12个评估维度。通过评估18个模型的性能,揭示了现有MLLMs的局限性。SEED-Bench将为未来的研究提供见解,并建立并持续维护一个排行榜。

SEED: 大型语言模型下的简单高效有效数据管理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-01T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码