近年来,大语言模型(LLM)取得显著进展,但现有评估基准存在不足。为此,AI安全中心与Scale AI联合发布了多模态人类问题基准数据集HLE,包含2500个问题,旨在准确评估LLM能力,推动其在知识前沿领域的发展。
本研究提出了个性化评估基准ToolSpectrum,解决了大型语言模型在工具选择中的上下文感知不足问题,强调个性化工具的使用能显著提升用户体验。
本研究提出了一种名为Sadeed的小型语言模型,旨在解决阿拉伯语标点问题。Sadeed通过在高质量数据集上的微调,表现优越,超越传统模型,并引入新的评估基准SadeedDiac-25,推动阿拉伯语自然语言处理的发展。
本研究解决了大型语言模型和自主AI代理评估基准分类不统一的问题。通过比较约60个基准,展示了AI代理的实际应用与合作协议,发现集成大型语言模型与模块化工具包能提高自主决策和推理效率。
本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性,提出了一种基于人机交互的动态方法,重新定义基准,以更好地反映用户的偏好和需求。研究表明,改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。
本研究提出了“误导性图表问答基准”,用于评估多模态大语言模型识别误导性图表的能力。结果表明,现有模型在识别视觉误导方面存在局限性,并提出了新方法以提高解读准确性,为理解误导性图表提供了基础。
本研究为商业地理信息系统从业者建立了大型语言模型(LLMs)在多步骤地理空间任务上的评估基准。评测结果显示,Sonnet 3.5和GPT-4o表现最佳,提供的开源基准和评估框架将推动GeoAI领域的标准化研究。
阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准,涵盖六大领域和100个细分场景,旨在全面评估大模型的写作能力。该基准克服了现有评估的局限性,采用动态评估体系,提高了人类一致性得分。研究表明,思维链技术在创意写作中表现优异,但在效率型写作上效果有限。
本研究提出了新的评估基准CodeReviewQA,旨在解决大型语言模型在代码审查评论中的不足,通过分解任务来评估模型能力,揭示其理解上的弱点。
本研究提出了新的评估基准ContextualJudgeBench,旨在解决当前大型语言模型(LLM)在上下文环境评估中的不足。该基准包含2000个挑战性响应对,模拟真实世界情境。研究表明,先进模型在处理上下文信息时仍面临显著挑战,强调了新评估方法对提升模型评估的重要性。
本研究提出WorldSense,这是首个评估多模态视频理解的基准,涵盖视觉、音频和文本输入。WorldSense包含1662个视频和3172个多项选择问答,显著提升了真实场景理解的评估质量,推动了多模态理解研究的发展。
本研究提出了MedXpertQA,这是一个全面且具有挑战性的基准,用于评估专家级医学知识和高级推理能力。该基准涵盖4460个问题,涉及17个专业和11个身体系统,旨在填补现有评估的不足,对医学决策具有潜在影响。
本研究提出了EmbodiedEval评估基准,包含328个任务和125个3D场景,增强了多模态大型语言模型的评估多样性,揭示其在具身任务上的不足之处。
本研究提出了Robin多尺度视觉-语言模型套件及CHIRP评估基准,旨在解决视觉-语言模型评估方法的不足。通过分析现有评估技术,提供开放资源,促进视觉-语言模型研究的可重复性和进展。
多模态大语言模型(MLLMs)因其处理文本、图像和视频等多种数据的能力而备受关注。专家认为,发展多模态AI是实现通用人工智能(AGI)的关键。目前的通用多模态模型(GMMs)在不同任务中表现良好,但面临数据集不足和评估基准缺乏的挑战。
本研究探讨了在标签稀缺情况下处理不一致未标记数据的方法,以提升半监督学习性能。提出了一种新方法,增强了鲁棒性,并建立了评估基准,旨在解决开放环境中的稳定性问题。
本研究系统调查了人工智能生成图像与自然图像之间的差异,提出了评估基准和包含44万个样本的多模态数据集DNAI。结果显示在多个维度上存在显著差异,强调结合定量指标与人类判断以全面理解AI生成图像质量的重要性。
本研究提出了OmniEval评估基准,旨在解决大型语言模型在金融领域知识不足的问题。该基准通过多维度评估框架,结合自动生成与人工标注,提高评估准确性,全面反映RAG系统在不同金融主题和任务中的表现差异,推动模型能力提升。
本研究提出ExecRepoBench框架和Repo-Instruct指令语料库,旨在解决现有代码补全评估基准的不足,从而提升开源大型语言模型在复杂编码场景中的表现。
本研究探讨了大型语言模型(LLMs)在儿童语言发展和对话模拟中的应用,发现LLMs在模拟人类对话时存在显著差异,尤其在文本风格和内容上。研究提出了新的评估基准,强调了模型在真实互动场景中的表现和局限性,特别是在自闭症儿童的临床环境中具有重要应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。