小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
探索使用Playwright MCP服务器与Claude 4 Sonnet和Claude 4 Opus生成测试

本文介绍了Claude 4 Opus和Claude 4 Sonnet的测试案例,使用Playwright进行文章的创建、编辑和删除。测试流程包括登录、创建新文章、编辑和删除文章,并验证每个步骤的结果。两者结构相似,均采用类封装和懒加载定位器,Claude 4 Sonnet的测试更为详细。

探索使用Playwright MCP服务器与Claude 4 Sonnet和Claude 4 Opus生成测试

DEV Community
DEV Community · 2025-05-23T14:06:00Z

该研究提出了一种新方法,通过从Codeforces收集编程问题及其“黑客”案例,生成错误诱导测试案例。研究提供了一个包含288,617个测试的综合数据集,旨在提升大语言模型生成软件的测试效果。

Codehacks: A Dataset of Adversarial Tests for Competitive Programming Problems from Codeforces

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z
AI代码助手难以跟上现代编程:新工具揭示重大差距

这篇文章总结了研究论文《AI代码助手难以跟上现代编程》。CodeSync识别了Python库中的过时代码模式,并创建了包含3300个测试案例的基准。研究表明,AI模型在API变化方面面临重大挑战。

AI代码助手难以跟上现代编程:新工具揭示重大差距

DEV Community
DEV Community · 2025-02-28T09:58:34Z
EP151:2025年学习软件架构的24个优质资源

QA Wolf 提供全托管服务,帮助软件工程团队实现 80% 的自动化测试覆盖率,显著缩短 QA 周期。Drata 团队的测试案例增加了 4 倍,QA 周期缩短了 86%。

EP151:2025年学习软件架构的24个优质资源

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-02-22T16:30:54Z
为LangSmith评估引入Pytest和Vitest集成

评估(evals)是构建高质量LLM应用的重要环节。LangSmith推出了Pytest和Vitest/Jest的集成,简化了评估流程。新集成使开发者能够在调试时记录输入输出,跟踪进展并共享结果,从而灵活定义测试案例,实时反馈,提升协作效率。

为LangSmith评估引入Pytest和Vitest集成

LangChain Blog
LangChain Blog · 2025-01-22T17:54:26Z
使用GitHub Actions添加持续集成工作流

本周,我和同学们使用GitHub Actions创建了持续集成工作流,确保每次代码推送和拉取请求时自动构建和测试项目。我为同学的项目添加了测试案例,重点测试无效参数选项,提高了代码的可靠性。

使用GitHub Actions添加持续集成工作流

DEV Community
DEV Community · 2024-11-16T23:53:15Z

本研究提出了RedCode基准,用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示,结果显示代码助手对风险操作的拒绝率较高,但对技术性错误的拒绝率较低,潜在风险较大。

RedCode: A Benchmark for Evaluating the Execution and Generation of Risky Code by Code Assistants

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z
播客:揭秘“AI对战街霸II,GPT-3.5真的比4.0更强大吗?”

AFLCafe是AFL的官方社区频道,旨在促进AI开发者的线下聚会和深度沟通。本期节目邀请了Artem和Ron Ding,介绍了AFL的第一个测试案例“AI对战街霸II:GPT-3.5真的比GPT-4.0更强大吗?”并讨论了测试过程中的问题和下一步计划。

播客:揭秘“AI对战街霸II,GPT-3.5真的比4.0更强大吗?”

AI Futures Lab
AI Futures Lab · 2023-09-11T14:01:41Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码