小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
新的基准揭示了AI视觉-语言模型在73,000个人类测试中的显著性能差距

ViLBench是一个新的视觉-语言模型评估基准,包含理解、跟随、推理和生成四个测试套件,基于73,000个用户偏好注释,揭示了当前多模态AI系统的显著性能差距。

新的基准揭示了AI视觉-语言模型在73,000个人类测试中的显著性能差距

DEV Community
DEV Community · 2025-03-27T10:18:30Z

本研究提出了一种结合不平衡感知技术的联合训练基准,以解决少样本增量学习中的类别不平衡问题,缩小基础类与增量类的性能差距,并规范了实验设置与评估流程。

针对少样本增量学习的新基准:重新定义上限

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究探讨了线性注意力与Softmax注意力之间的性能差距,提出理论分析,指出提升线性注意力的注入性和局部建模能力可以降低计算复杂度,从而超越Softmax注意力。

Bridging the Gap: Rethinking Softmax and Linear Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出Marco-LLM,通过大规模多语言训练,提升低资源语言在多语言任务中的表现,缩小了高资源语言与低资源语言之间的性能差距。

Marco-LLM: Achieving Cross-Language Enhancement through Large-Scale Multilingual Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究探讨了语言模型在不同语言中的表现差异,发现拼合语言(如土耳其语)优于融合语言(如英语)。提出了MorphScore评估指标,并指出高质量标记化和数据集规模是性能差距的主要因素。

为什么语言模型在形态复杂的语言上表现较差?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究提出了一种混合上下文学习检索策略,通过音素转录提升多语言大型语言模型在非拉丁文字语言上的表现,从而缩小拉丁文字与非拉丁文字之间的性能差距。

使用音素提示:增强非拉丁文字语言的大型语言模型多语言能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究提出了首个大规模多语言调试基准MdEval,涵盖18种编程语言的3.6K测试样本,显著提升了多语言代码调试效果,并揭示了开源与闭源模型之间的性能差距。

MdEval:大规模多语言代码调试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

本研究提出了一种现实主义转移框架,以提高合成图像的真实感,解决合成数据与真实数据在训练人脸识别模型中的性能差距。实证评估表明,使用增强数据集训练的模型性能显著优于基线。

Digi2Real:通过基础模型弥合合成数据人脸识别中的现实主义差距

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z

研究比较了LoRA和全精调在编程和数学领域的性能。结果表明,LoRA通常不如全精调,但正则化效果更好,能保持基础模型在其他任务上的表现,并生成更丰富的结果。全精调的学习扰动比LoRA高10-100倍,解释了性能差距。文章还提出了LoRA精调的最佳实践建议。

摩尔:低秩适应调优的秩混合方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

多模态大型语言模型在网页任务中有潜力,但缺乏全面的基准测试。本文介绍了基准测试ench{},用于评估这些模型的能力。测试14个开源模型后,发现文本丰富环境和低分辨率图像下的表现不足。ench{}旨在推动更强大的网页应用模型发展。

利用网页用户界面进行文本丰富的视觉理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

研究比较了Low-Rank Adaptation (LoRA)和全精调在编程和数学领域的表现。结果显示,LoRA通常不如全精调,但它能更好地保持基础模型在其他任务中的表现,并生成更多样化的结果。全精调的学习扰动比LoRA高10-100倍,这可能导致性能差距。文章还提供了LoRA精调的最佳实践建议。

PMSS:用于大规模语言模型微调的预训练矩阵骨架选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

该研究调查了基于人工智能的青光眼诊断方法,特别关注深度学习。研究提供了最新的分类法和源代码链接,揭示了性能差距和限制。调查还描述了未来研究的挑战和有前景的方向。该研究对人工智能研究人员和眼科医生有所帮助。

适应性光学成像中光感受器分析的通用分割算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

最新研究发现,大型语言模型在非洲语言上性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现良好,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到充分代表。

大型语言模型是否在低资源环境中平等地掌握所有语言?一项比较性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

最新研究发现,大型语言模型在非洲语言上性能较差,与英语等高资源语言相比有较大差距。GPT-4在分类任务上表现平均,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

评估大型语言模型在 SDG 映射中的性能(技术报告)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

最新研究发现,大型语言模型在非洲语言上的性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现良好,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到充分代表。

BOTS-LM: Setswana 大型语言模型的训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

最新研究发现,大型语言模型在非洲语言上性能较差,与英语等高资源语言相比有较大差距。GPT-4在分类任务上表现平均,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

近期大型语言模型对低资源语言的表现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z

该论文介绍了TriPosT训练算法,通过自我改进减小小模型与大型模型的性能差距。

递归内省:教授语言模型智能代理如何自我改进

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

视觉语言模型(MLLMs)的出现标志着人工智能应用程序的扩展,但评估其有效性面临挑战。为解决这个问题,引入了MLLM-Bench,一个创新基准,提供更全面的评估。对比评估结果显示,现有模型和GPT-4V之间存在性能差距。MLLM-Bench将推动开源社区在开发用户导向视觉语言模型方面取得进展。

BADGE:LLM 模型下的羽毛球报告生成与评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

最新研究发现,大型语言模型在非洲语言上的性能较差,与英语等高资源语言相比存在较大差距。GPT-4在分类任务上表现平均,但在机器翻译等生成任务上表现糟糕。mT0在非洲语言上的跨语言问答表现最佳。研究呼吁确保非洲语言在大型语言模型中得到很好的代表。

IrokoBench:大型语言模型时代的非洲语言新基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z
苹果回应新款 iPad Air GPU「缩水」疑云

苹果官网在iPad Air参数页面上将M2芯片的图形处理器核心数量从10核心改为9核心,原因未知。M2芯片仍然是一个强大的升级,但对于游戏玩家和专业用户而言,性能差距可能有遗憾。苹果有义务及时通知消费者这一变化。

苹果回应新款 iPad Air GPU「缩水」疑云

爱范儿
爱范儿 · 2024-06-04T02:05:45Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码