小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
使用RAGAs和G-Eval测试智能体的实践指南

本文介绍了如何使用RAGAs和G-Eval框架评估大型语言模型应用。RAGAs是一个开源评估框架,旨在量化检索增强生成系统的质量,重点关注上下文准确性和答案相关性。文章提供了构建评估数据集、集成测试管道及使用DeepEval评估生成内容连贯性的实践指南。通过结合结构化指标和定性评估,可以建立更全面的AI系统评估流程。

使用RAGAs和G-Eval测试智能体的实践指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-08T12:02:28Z
安全的Python3沙箱——eval

本文讨论了Python3沙箱的安全性,特别是eval函数的使用。作者指出,尽管AI尝试突破沙箱并接近成功,但仍无法调用内置方法,展示了AI在安全性测试中的局限性和有趣尝试。

安全的Python3沙箱——eval

Est's Blog
Est's Blog · 2026-02-15T03:56:00Z
Google AI 发布 TimesFM-2.5:更小、更长上下文的基础模型,现已引领 GIFT-Eval

谷歌研究院发布了TimesFM-2.5模型,拥有2亿参数,支持16K上下文长度和概率预测。该模型在GIFT-Eval测试中表现优异,准确率领先。与2.0版本相比,TimesFM-2.5参数减少一半,但准确性提高,适合实际应用。

Google AI 发布 TimesFM-2.5:更小、更长上下文的基础模型,现已引领 GIFT-Eval

实时互动网
实时互动网 · 2025-09-17T02:18:01Z
大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法:介绍text-to-sql-eval

我们开源了用于评估和提升PostgreSQL文本到SQL系统的评估套件text-to-sql-eval。该工具支持多种模型,专为PostgreSQL设计,帮助识别失败原因并提供改进建议,包含多种操作模式,便于调试和结果跟踪,旨在提高文本到SQL系统的准确性和可靠性。

大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法:介绍text-to-sql-eval

Timescale Blog
Timescale Blog · 2025-08-28T13:00:18Z

本文探讨了如何利用 Flask 中的 SSTI 漏洞动态添加后门路由以执行命令。通过分析不同版本的 Flask,提供了兼容新版的 payload,简化了攻击过程,避免了反弹 shell 的复杂性,并使用 eval 执行代码注册后门路由。

Flask 内存马从初识到进阶 - 兼容新版 Flask 的内存马打法

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-05-20T14:29:28Z

本研究解决了大型语言模型在外语教学中的语法能力评估不足的问题,提出了CPG-EVAL基准,专门用于评估模型的教学语法知识。研究发现,小规模模型在单语言实例任务中表现良好,但在多实例任务和干扰情况下较为乏力,而大规模模型虽在干扰下表现更佳,但依然需要提高准确性。这一成果为教育工作者、政策制定者和模型开发者提供了系统评估的理论框架,有助于引导大型语言模型在教育中的有效部署。

CPG-EVAL:评估大型语言模型的汉语教学语法能力的多层次基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出HLS-Eval,这是评估大型语言模型(LLM)在高级综合设计任务中的首个完整框架,提供94个独特基准,支持快速原型设计,推动LLM在硬件领域的应用。

HLS-Eval: A Benchmark and Framework for Evaluating Large Language Models in High-Level Synthesis Design Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z
Grafast重大更新:三项已解决,一项待完成!

在Grafast工作组首次会议上,确定了四个主要问题,目前已解决三个,包括消除eval。新版本grafast@0.1.1-beta.21优化了输入评估,查询规划时间从4分钟缩短至1.1毫秒。用户需更新代码以适应新变化。

Grafast重大更新:三项已解决,一项待完成!

DEV Community
DEV Community · 2025-04-14T11:12:51Z

本研究针对行为疗法笔记质量标准不足的问题,设计了一套评价标准,涵盖完整性、简洁性和忠实度等维度。研究发现,基于标准的手动评估比传统方法更可靠,而大型语言模型在评估方面接近人类,但在忠实度上存在困难。治疗师偏好LLM生成的笔记。

TN-Eval: Standards and Evaluation Protocols for Assessing the Quality of Behavioral Therapy Notes

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本文介绍了如何通过网络扫描和端口检测获取目标主机信息,包括开放端口和服务版本。使用nmap和masscan工具检测目标IP的SSH和HTTPS服务,并展示了如何利用Python脚本进行数据库操作和权限提升。文章强调了网络安全和合法性的重要性。

[Meachines] [Medium] Craft gogs+Craft-API+py-eval+vault-toke-SSH权限提升

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-03-09T09:08:18Z

AGI-Eval团队评测AI视频生成模型,Sora在视频-文本一致性和视频质量上略逊于国内领先模型,但运动质量表现较好。整体来看,国产模型在动态场景和细节表现上仍占优势。

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

量子位
量子位 · 2025-01-06T00:48:26Z
为什么eval()可能是你JavaScript代码的最大敌人

JavaScript的eval()函数允许动态执行代码,但存在安全漏洞、性能下降和不可预测行为等风险。使用eval()可能导致恶意代码注入和调试困难。建议使用JSON.parse()、Function()构造函数或模板字面量等更安全的替代方案,以提高代码安全性和可维护性。

为什么eval()可能是你JavaScript代码的最大敌人

DEV Community
DEV Community · 2024-11-17T21:32:49Z

本研究提出了MM-Eval评估数据集,评估大型语言模型在低资源语言(如蒙古语)中的表现。结果表明,模型在句法任务上优于语义任务,知识任务表现适度下降,显示出模型能够将高资源知识迁移至低资源环境。该数据集为低资源语言的自然语言处理提供了重要支持。

MM-Eval:现代蒙古语评估的层次基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了涵盖18种编程语言的新基准M2RC-EVAL,解决了现有代码补全基准在多语言评估中的不足,并有效提升了大型语言模型的补全能力。

大规模多语言代码补全评估:M2rc-Eval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出了TP-Eval评估框架,通过定制化提示减少评估偏差,揭示多模态大型语言模型的能力,支持评估基准的开发。

TP-Eval:通过定制提示评估多模态大型语言模型的潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

Python 的 `literal_eval` 是 `ast` 库中的一个函数,用于安全地评估字符串形式的 Python 表达式。它支持字符串、数字、字典、列表、元组、布尔值和 None。相比 `eval`,`literal_eval` 更安全,推荐使用。

在 Python 中使用 Literal Eval 进行字符串到对象的转换

DEV Community
DEV Community · 2024-10-16T12:34:50Z

本研究关注低光照图像增强评估中存在的过拟合问题,提出了LIME-Bench这一在线基准平台,以收集人类对低光增强效果的偏好,并建立数据集,验证人类感知和自动评估指标之间的相关性。通过开发LIME-Eval框架,本研究能在没有物体注释的情况下,利用标准光照数据集预训练的检测器,评估增强图像的质量,展现了其创新性和有效性。

LIME-Eval:通过物体检测重新思考低光照图像增强评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-11T00:00:00Z
Redis Functions是什么?Redis EVAL 和 Functions 的区别和详细对比

Redis 7 引入了 Redis Functions,增强了 EVAL 脚本的功能。Redis Functions 支持持久化和复制,易于管理,未来还计划支持多种语言,提供更高效、可靠的脚本使用方式,适合需要持久化和管理的场景。

Redis Functions是什么?Redis EVAL 和 Functions 的区别和详细对比

人言兑
人言兑 · 2024-08-26T13:04:21Z
Golang 操作 Redis:eval/functions 执行 lua script 脚本操作用法 - go-redis 使用指南

本文介绍了如何在 Go 语言中使用 go-redis 库执行 Redis 脚本,包括 eval 和 function 操作,简化客户端与服务器的数据交换,提高效率。提供了相关方法和示例代码,帮助用户灵活高效地执行复杂操作。

Golang 操作 Redis:eval/functions 执行 lua script 脚本操作用法 - go-redis 使用指南

人言兑
人言兑 · 2024-08-26T10:12:38Z
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

南洋理工大学的研究人员开源了LMMs-Eval,一个专为多模态大型模型设计的评估框架。该框架提供了统一接口、一键式启动和透明可复现等特性。LMMs-Eval的目标是为多模态模型提供简化的评测任务,以节省时间和成本。此外,他们还推出了LMMs-Eval-Lite和LiveBench来兼顾广覆盖、低成本和零数据泄露。未来,他们计划进一步完善评估方法。

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

机器之心
机器之心 · 2024-08-21T06:41:54Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码