我们开源了用于评估和提升PostgreSQL文本到SQL系统的评估套件text-to-sql-eval。该工具支持多种模型,专为PostgreSQL设计,帮助识别失败原因并提供改进建议,包含多种操作模式,便于调试和结果跟踪,旨在提高文本到SQL系统的准确性和可靠性。
本研究提出了PerceptionLM框架,解决了视觉语言模型的闭源问题,并发布了280万个人工标注的视频问答对,以促进详细视频理解。同时推出的PLM-VideoBench评估套件推动了透明研究的进展。
多模态大语言模型在图表理解方面存在不足。CharXiv是一个评估套件,包含具有挑战性和多样化的图表。结果显示,最强专有模型的推理能力比最强开源模型更强,但都远远落后于人类表现。CharXiv希望促进未来的图表理解研究。
多模态大语言模型(MLLMs)在图表理解方面存在不足。CharXiv是一个评估套件,包含2,323个自然、具有挑战性和多样化的图表。结果显示,最强专有模型(GPT-4o)的推理能力(47.1%准确率)与最强开源模型(InternVL Chat V1.5)(29.2%准确率)之间存在差距。所有模型远远落后于人类表现。CharXiv有望促进未来的MLLM图表理解研究。
该论文提出了一个基于语言学动机和技术相关的希腊自然语言处理评估套件,引入了四个专家验证的评估任务,特别针对自然语言推理、词义消歧和隐喻检测。同时,确认了任务的挑战性,并强调希腊 NLP 生态系统需要加速进展以与当代主流研究保持同步的需求。
完成下面两步后,将自动完成登录并继续当前操作。