小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DoorDash如何构建评估大型语言模型的测试系统

DoorDash开发了一种模拟和评估系统,以改善客户支持聊天机器人,成功解决了“幻觉”问题。该系统通过离线模拟生成真实客户对话,并自动评估聊天机器人的表现。经过快速迭代,幻觉现象减少了90%,测试效率显著提高,确保在真实客户体验前验证改进效果。尽管存在一些局限性,如无法捕捉所有问题,人工审核仍是改进的起点。

DoorDash如何构建评估大型语言模型的测试系统

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-05-30T15:30:52Z
我如何编程?(2025年11月版)

本文讨论了GPT模型的最新进展,特别是gpt-5.1-codex-max的使用体验。作者强调提示的重要性,并建议优化AGENTS.md以提升模型表现。同时,介绍了Conductor工具的优势,包括独立工作区和代码审查功能。最后,提醒读者建立评估系统,以更好地适应模型需求。

我如何编程?(2025年11月版)

Xuanwo's Blog
Xuanwo's Blog · 2025-11-28T01:00:00Z
通过定制评估者实现从试点到生产的转变

许多团队在将GenAI项目从试点转向生产时面临质量挑战。Databricks通过Judge Builder等解决方案,帮助客户建立评估系统,确保AI应用的性能、安全和合规。评估数据成为可重用资产,支持未来模型训练和工作流程验证。成功的团队将评估视为动态过程,持续调整标准以适应业务需求的变化。

通过定制评估者实现从试点到生产的转变

Databricks
Databricks · 2025-11-04T20:00:00Z
播客:如果无法测试,就不要部署:人工智能开发的新规则?

马格达莱娜·皮卡里耶洛重新定义了人工智能的思维方式,强调商业影响和成果。她主张评估系统应不仅关注准确性,还需展示实际商业价值,并通过持续反馈进行迭代开发,以实现最佳应用。

播客:如果无法测试,就不要部署:人工智能开发的新规则?

InfoQ
InfoQ · 2025-11-03T11:00:00Z
OpenAI新论文揭示AI模型出现幻觉的原因:并非神秘故障而是模型训练的奖励机制问题

OpenAI 研究表明,AI 模型产生幻觉的原因在于奖励机制鼓励错误回答而非承认不确定性。为此,需改革评估系统,奖励不确定性回答,以减少错误信息的自信输出。

OpenAI新论文揭示AI模型出现幻觉的原因:并非神秘故障而是模型训练的奖励机制问题

蓝点网
蓝点网 · 2025-09-07T04:27:44Z
AlphaWrite:通过进化提升AI叙事

AlphaWrite是一个新框架,通过结构化和可测量的改进来提升创意写作。它利用进化算法迭代生成多样化故事,并通过评估系统筛选优秀作品进行优化。尽管结果积极,但对AI在创作领域的作用存在不同看法。该系统同样适用于技术写作和学术内容。

AlphaWrite:通过进化提升AI叙事

InfoQ
InfoQ · 2025-06-21T11:34:00Z

本研究提出了DAHL,一个用于评估生物医学长文本生成中幻觉现象的基准数据集和自动评估系统。通过分析8573个问题,发现较大模型通常幻觉较少,并提出DAHL分数作为更高效的评估替代方案。

DAHL:针对生物医学领域长文本生成的领域特定自动化幻觉评估基准数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究探讨了人机混合模型在预测再犯罪风险中的优势与劣势,强调人工智能与人类的互补性。研究发现,机器预测的解释能提升人类表现,简单模型的教程更有效。同时,提出了针对大型语言模型(LLM)和人类评判者的偏见框架,强调评估系统的可靠性与脆弱性。最后,展示了LLM在决策任务中的潜力及其与人类行为的对齐问题。

生成模型在人类高风险决策中的对齐程度研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-20T00:00:00Z

该研究提出了多个视频问答框架和基准测试,旨在提升视频理解能力。通过引入新的数据集和评估系统,如STAGE、OVQA和MVBench,评估视频型大型语言模型的表现,揭示其与人类理解的差距,推动视频理解领域的发展。

TVBench:重新设计视频-语言评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

该研究探讨了预训练代码模型的微调技术,提出了Telly技术以降低学习成本。介绍了StarCoder和CodeT5+等模型在代码生成任务中的表现,并强调了安全发布和评估系统的重要性。通过新基准测试评估大型语言模型的编码能力,发现其在真实代码库中的缺陷,并提出改进方案。

北极雪编码器:揭示代码预训练中的高质量数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-03T00:00:00Z

控制系统分为开环和闭环,评估系统也有开环和闭环。开环控制系统不反馈输出,闭环控制系统反馈输出。开环控制系统简单但不准确可靠,闭环控制系统复杂但准确可靠。开环评估系统对确定性过程评估,闭环评估系统对有影响过程评估。自动驾驶中,控制系统通常为闭环,评估系统可以是开环或闭环。开环评估系统对确定性驾驶场景评估,闭环评估系统对有影响驾驶场景评估。

开环与闭环:控制与评估系统的比较

Lei Mao's Log Book
Lei Mao's Log Book · 2024-06-30T07:00:00Z

本文介绍了多个评估系统,如 LiveCodeBench 和 CS-Bench,旨在全面评估大型语言模型(LLMs)在编程和计算机科学领域的能力。研究发现数据污染显著影响评估结果,并提出改进评估方法的建议。DevBench 作为新基准,评估 LLMs 在软件开发生命周期中的表现,揭示了当前模型在复杂编程任务中的不足。

LiveBench:一个具有挑战性和无污染的 LLM 基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z
将大型语言模型作为评判者与人类偏好对齐

LangSmith推出了一种自我改进的评估系统,利用人类反馈优化大型语言模型(LLM)的评估,简化提示工程。该系统通过少量示例学习,提高评估准确性,帮助团队更高效地评估和调整AI应用,以满足人类期望。

将大型语言模型作为评判者与人类偏好对齐

LangChain Blog
LangChain Blog · 2024-06-26T16:59:06Z

本文探讨了人类与大型语言模型(LLM)在评估LLM性能时的偏见问题。研究发现评判者存在显著偏见,且LLM在某些任务上优于人类。强调了使用LLM进行评估的潜力及开发更可靠评估系统的重要性。

用大型经验研究代替人类法官?跨 20 个 NLP 评估任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

本文探讨了视频型大型语言模型(Video-LLM)的评估系统,提出了多个基准测试以评估其在视频理解和推理方面的能力。研究表明,现有模型在复杂视频处理,尤其是长视频理解任务中存在不足。通过引入新的评估工具和方法,旨在推动多模态模型的发展,以满足现实应用需求。

VideoVista: 视频理解和推理的通用基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文探讨了视频型大型语言模型(Video-LLM)的评估系统,提出了多模式视频理解基准(MVBench)和多任务长视频理解基准测试(MLVU),以评估模型在视频理解中的能力。研究表明,VideoChat2模型在MVBench上表现优越,但长视频理解仍需改进。通过LongVLM模型,分解长视频以提升理解能力,推动视频与语言理解技术的发展。

LVBench:极长视频理解基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本研究探讨了大型语言模型(LLM)作为评判者评估聊天助手的有效性,发现LLM评判者与人类评判者的偏好一致,但存在潜在偏见。研究提出了针对LLM和人类评判者的偏见框架,并通过实验验证了评估方法的有效性,强调了改进评估系统的必要性。

法官的判断:对 LLMs 中两两比较评估的位置偏见的系统调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本文探讨了大型语言模型(LLMs)在数据标注和文本生成中的应用,提出了无监督注释方法和评估系统,分析了LLMs与人类专家的一致性,强调了其在特定领域的有效性及潜在协同效应。同时,研究揭示了LLMs在生成参考文献和解释质量评估中的表现,指出了其局限性及未来研究的必要性。

ACORN: 方面级常识推理解释评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-08T00:00:00Z

本文提出了一种视频型大型语言模型(Video-LLM)的评估系统,通过基准测试评估其在视频理解和推理任务中的能力,特别关注复杂推理任务。实验结果表明,当前模型在预测推理方面存在不足,评估方法为未来模型的发展提供了标准化框架。

视频 - LMMs 的复杂推理与鲁棒性评估套件

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z
How to Build Domain-Specific LLM Evaluation Systems

本文讨论了构建LLMs驱动的AI产品评估系统的重要性和方法。作者提出了三个层次的评估系统:单元测试、模型和人工评估以及A/B测试。作者强调了评估系统对于微调和调试的重要性。建议简化评估过程,持续更新测试,并利用评估系统进行调试和微调。

How to Build Domain-Specific LLM Evaluation Systems

DemoChen's Clip
DemoChen's Clip · 2024-03-31T02:51:35Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码