小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法:介绍text-to-sql-eval

我们开源了用于评估和提升PostgreSQL文本到SQL系统的评估套件text-to-sql-eval。该工具支持多种模型,专为PostgreSQL设计,帮助识别失败原因并提供改进建议,包含多种操作模式,便于调试和结果跟踪,旨在提高文本到SQL系统的准确性和可靠性。

大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法:介绍text-to-sql-eval

Timescale Blog
Timescale Blog · 2025-08-28T13:00:18Z

本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题,并发布了280万个人工标注的视频问答对,以促进详细视频理解。同时推出的PLM-VideoBench评估套件推动了透明研究的进展。

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

多模态大语言模型在图表理解方面存在不足。CharXiv是一个评估套件,包含具有挑战性和多样化的图表。结果显示,最强专有模型的推理能力比最强开源模型更强,但都远远落后于人类表现。CharXiv希望促进未来的图表理解研究。

ChartMoE:用于高级图表理解的专家混合连接器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

多模态大语言模型(MLLMs)在图表理解方面存在不足。CharXiv是一个评估套件,包含2,323个自然、具有挑战性和多样化的图表。结果显示,最强专有模型(GPT-4o)的推理能力(47.1%准确率)与最强开源模型(InternVL Chat V1.5)(29.2%准确率)之间存在差距。所有模型远远落后于人类表现。CharXiv有望促进未来的MLLM图表理解研究。

CharXiv:多模式 LLM 模型中现实图表理解的不足之处的概览

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

该论文提出了一个基于语言学动机和技术相关的希腊自然语言处理评估套件,引入了四个专家验证的评估任务,特别针对自然语言推理、词义消歧和隐喻检测。同时,确认了任务的挑战性,并强调希腊 NLP 生态系统需要加速进展以与当代主流研究保持同步的需求。

OYXOY:用于现代希腊语的现代自然语言处理测试套件

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码