小红花·文摘

使用RAGAs和G-Eval测试智能体的实践指南

MachineLearningMastery.com ·

安全的Python3沙箱——eval

Est's Blog ·

Google AI 发布 TimesFM-2.5：更小、更长上下文的基础模型，现已引领 GIFT-Eval

实时互动网 ·

大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法：介绍text-to-sql-eval

Timescale Blog ·

本文探讨了如何利用 Flask 中的 SSTI 漏洞动态添加后门路由以执行命令。通过分析不同版本的 Flask，提供了兼容新版的 payload，简化了攻击过程，避免了反弹 shell 的复杂性，并使用 eval 执行代码注册后门路由。

Flask 内存马从初识到进阶 - 兼容新版 Flask 的内存马打法

FreeBuf网络安全行业门户 ·

本研究解决了大型语言模型在外语教学中的语法能力评估不足的问题，提出了CPG-EVAL基准，专门用于评估模型的教学语法知识。研究发现，小规模模型在单语言实例任务中表现良好，但在多实例任务和干扰情况下较为乏力，而大规模模型虽在干扰下表现更佳，但依然需要提高准确性。这一成果为教育工作者、政策制定者和模型开发者提供了系统评估的理论框架，有助于引导大型语言模型在教育中的有效部署。

CPG-EVAL：评估大型语言模型的汉语教学语法能力的多层次基准

BriefGPT - AI 论文速递 ·

本研究提出HLS-Eval，这是评估大型语言模型（LLM）在高级综合设计任务中的首个完整框架，提供94个独特基准，支持快速原型设计，推动LLM在硬件领域的应用。

HLS-Eval: A Benchmark and Framework for Evaluating Large Language Models in High-Level Synthesis Design Tasks

BriefGPT - AI 论文速递 ·

Grafast重大更新：三项已解决，一项待完成！

DEV Community ·

本研究针对行为疗法笔记质量标准不足的问题，设计了一套评价标准，涵盖完整性、简洁性和忠实度等维度。研究发现，基于标准的手动评估比传统方法更可靠，而大型语言模型在评估方面接近人类，但在忠实度上存在困难。治疗师偏好LLM生成的笔记。

TN-Eval: Standards and Evaluation Protocols for Assessing the Quality of Behavioral Therapy Notes

BriefGPT - AI 论文速递 ·

本文介绍了如何通过网络扫描和端口检测获取目标主机信息，包括开放端口和服务版本。使用nmap和masscan工具检测目标IP的SSH和HTTPS服务，并展示了如何利用Python脚本进行数据库操作和权限提升。文章强调了网络安全和合法性的重要性。

[Meachines] [Medium] Craft gogs+Craft-API+py-eval+vault-toke-SSH权限提升

FreeBuf网络安全行业门户 ·

AGI-Eval团队评测AI视频生成模型，Sora在视频-文本一致性和视频质量上略逊于国内领先模型，但运动质量表现较好。整体来看，国产模型在动态场景和细节表现上仍占优势。

AGI-Eval团队：AI视频生成模型年度横评，Sora大饼落地，但国产模型仍然领先！

量子位 ·

为什么eval()可能是你JavaScript代码的最大敌人

DEV Community ·

本研究提出了MM-Eval评估数据集，评估大型语言模型在低资源语言（如蒙古语）中的表现。结果表明，模型在句法任务上优于语义任务，知识任务表现适度下降，显示出模型能够将高资源知识迁移至低资源环境。该数据集为低资源语言的自然语言处理提供了重要支持。

MM-Eval：现代蒙古语评估的层次基准

BriefGPT - AI 论文速递 ·

本研究提出了涵盖18种编程语言的新基准M2RC-EVAL，解决了现有代码补全基准在多语言评估中的不足，并有效提升了大型语言模型的补全能力。

Large-Scale Multilingual Code Completion Evaluation: M2RC-EVAL

BriefGPT - AI 论文速递 ·

Python 的 `literal_eval` 是 `ast` 库中的一个函数，用于安全地评估字符串形式的 Python 表达式。它支持字符串、数字、字典、列表、元组、布尔值和 None。相比 `eval`，`literal_eval` 更安全，推荐使用。

在 Python 中使用 Literal Eval 进行字符串到对象的转换

DEV Community ·

本研究关注低光照图像增强评估中存在的过拟合问题，提出了LIME-Bench这一在线基准平台，以收集人类对低光增强效果的偏好，并建立数据集，验证人类感知和自动评估指标之间的相关性。通过开发LIME-Eval框架，本研究能在没有物体注释的情况下，利用标准光照数据集预训练的检测器，评估增强图像的质量，展现了其创新性和有效性。