小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

链式提示系统将任务分解为步骤,路由系统对输入进行分类,并行化系统同时处理任务,协调器动态分解任务,评估器优化器提供反馈。

常见的几种 LLM Agent 架构

陈少文的博客
陈少文的博客 · 2025-12-21T00:00:00Z
GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL

本文探讨了视觉语言动作(VLA)与强化学习(RL)结合的必要性,提出了GR-RL框架,以提高机器人在长时域操作中的灵巧性和精确度。GR-RL通过离线RL过滤次优数据,增强动作并进行在线RL调整,解决了人类示范中的噪声和不匹配问题。尽管GR-RL在高精度任务中表现出色,但仍面临行为漂移等局限性。

GR-RL——首个让机器人系鞋带的VLA:先离线RL训练一个“分布式价值评估器”以做任务进度预测,后数据增强,最后在线RL

结构之法 算法之道
结构之法 算法之道 · 2025-12-08T06:57:55Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

机器之心
机器之心 · 2025-06-27T05:06:39Z

本文介绍了LLaMA-Reviewer框架,该框架采用参数高效微调(PEFT)方法,能够自动评分短答案和论文并生成反馈。通过同行评审机制,解决了评估成本高和偏见问题。FLAME方法在分类任务中表现优异,准确性显著提高。研究还比较了不同大型语言模型在多语言评估中的表现,发现GPT-4效果最佳,并分析了LLM评估与人类评分的一致性问题。

基础性自动评估器:驯服大型语言模型以获得更好的自动评价

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

本文探讨了四个大型语言模型(LLMs)(Llama 3、Gemma、GPT-3.5 Turbo 和 GPT-4)在幻觉生成和检测任务中的能力,并采用集成多数投票的方法将所有四个模型应用于检测任务,结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。

硬币的两面:利用 LLMs 作为 LLMs 的评估器进行幻觉生成和检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-12T00:00:00Z

本文探讨了大型语言模型(LLMs)在医疗摘要任务中的表现,特别是开源模型Llama2和Mistral。研究采用GPT-4作为评估工具,发现其在特定任务中优于传统方法。LLMs在不同语言和文献类型上的表现存在差异,强调在系统综述中谨慎使用LLMs。总体而言,GPT-4在生成反馈和评估摘要方面表现良好。

大型语言模型作为科学综合评估器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

通过研究大型语言模型的评估生成文本的提示设计,本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响,进而提出了优化评分一致性的方法。

文本生成的更好 LLM 评估器:提示输出排序和优化的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-14T00:00:00Z

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案,用于评估推荐解释文本的质量。

大型语言模型作为推荐解释的评估器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

本文提出了一种新的自然语言处理模型评估框架,强调研究人员的对抗角色,以促进错误分析。介绍了多种评估方法,包括基于多智能体的DEBATE框架和ADVMT模型,探讨了自然语言生成的评估指标及其优缺点,并呼吁改进评估目标和方法,以应对当前挑战。

揭示 NLG 评估器的致命弱点:由大型语言模型驱动的统一对抗框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

本文评估了九个大语言模型在中英文问答数据集上的表现,发现模型在多选题中存在顺序敏感性。研究提出了衡量模型输出一致性和置信度的方法,并指出多选题的可靠性较低。尽管模型能生成形式良好的问题提示,但干扰项未能涵盖学生常见错误。因此,建议在使用多选题评估模型前需谨慎测试其任务理解能力。

多项选择题是高效且稳健的 LLM 评估器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文介绍了一种基于13B Llama2的医学对话大型语言模型(LLM),其在PubMedQA中的准确度达到76.6%。该模型在生成SOAP笔记方面优于GPT-4,并能更好地捕捉医学概念。研究探讨了LLMs在医疗决策中的应用,强调提示设计对准确性的影响,并提出结合人类专家的方法以提高医疗文本注释的效率和准确性。

临床记录生成的两种模型设计比较;LLM 是否是一种有用的一致性评估器?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

GPT-4 在农业、教育和生物学等领域表现出色,能够提供准确的反馈和分析。研究表明,GPT-4 在自动评分和课堂对话分析中效率高且一致性强,超越传统方法,展现出在教育和研究中的巨大潜力。

GPT-4 作为评估器:在农业中评估大型语言模型的农害管理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

本文讨论了使用大型语言模型(LLMs)评估文本质量的方法,研究发现自动思维链(CoT)并不总是与人类评分一致,强制LLMs仅输出数字评分也不理想,要求LLMs解释其自身评分可以改善与人类评分的相关性。

PRE: 基于同行评审的大型语言模型评估器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-28T00:00:00Z

该论文评估了GPT-4V在医学图像任务中的能力,发现其在生成胸部X射线图像描述性报告方面有潜力,但在某些评估指标上仍需改进。在医学问答方面,GPT-4V在问题类型上表现熟练,但准确性不如现有基准。在视觉基础领域,GPT-4V在识别边界框方面显示潜力,但精度不够。评估强调了GPT-4V在医学图像领域的潜力,但需要改进来充分发挥其能力。

GPT-4V (ision) 是文本生成三维图像的人类对齐评估器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-08T00:00:00Z

本文提出了LLM-Eval,一种用于评估开放领域对话的统一方法。LLM-Eval可以通过单个模型调用来评估会话质量的多个方面。研究表明,LLM-Eval相对于其他评估方法更高效和适应性强。同时,选择适当的LLM和解码策略对于准确评估结果也很重要。LLM-Eval为评估对话系统提供了一种多功能和强大的解决方案,可以简化评估过程并提供一致的性能。

融合评估器与 LLMs:Fusion-Eval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z

研究人员发现大型语言模型(LLMs)在处理个别推理步骤时表现良好,但在整个推理链上保持一致性方面存在困难。为了解决这个问题,他们引入了“规划标记”作为模型的指南,并通过微调模型的参数来实现。他们的方法在三个数学问题数据集上进行了评估,相对于基准方法,取得了显著的准确性提升。

StrategyLLM:作为问题解决的策略生成器,执行器,优化器和评估器的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z

本研究探讨了基于背景学习的评估器在自然语言生成方面的多维度评估,发现其与基于训练集的评估器在文本摘要等维度上具有同等效力和竞争力。研究还发现,在确定和选择上下文示例因素的影响下,基于背景学习的评估器在评估大型语言模型的零样本总结时也很有效。

X-Eval: 通过辅助评估方面的增强指令调整实现通用多方面文本评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z

CONCOCT是一种系统,通过训练具有判定程度的评估器,改善了自动生成故事大纲时的情节掌控,提高了大纲的一致性。评估器还可用于过滤新的大纲项目。与基线分层大纲生成器相比,CONCOCT的情节掌控更为一致。

提升长篇故事规划中的节奏

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

本文评估了GPT-4V在医学图像任务中的能力,发现其在为胸部X射线图像生成描述性报告方面有潜力,但在某些评估指标上需要改进。在医学问答方面,GPT-4V在问题类型方面表现熟练,但准确性不及现有基准。在视觉基础领域,GPT-4V在识别边界框方面显示了初步潜力,但精度不够。评估强调了GPT-4V在医学图像领域的潜力,但需要针对性的改进来充分发挥其能力。

GPT-4V 作为视觉语言任务的通用评估器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-02T00:00:00Z

研究发现,语言模型在文本质量评估中存在偏见,不适合作为评估器。机器偏好与人类不一致,因此LLMs可能不能用于自动注释。

大型语言模型作为评估者的认知偏差基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码