小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DoorDash如何构建评估大型语言模型的测试系统

DoorDash开发了一种模拟和评估系统,以改善客户支持聊天机器人,成功解决了“幻觉”问题。该系统通过离线模拟生成真实客户对话,并自动评估聊天机器人的表现。经过快速迭代,幻觉现象减少了90%,测试效率显著提高,确保在真实客户体验前验证改进效果。尽管存在一些局限性,如无法捕捉所有问题,人工审核仍是改进的起点。

DoorDash如何构建评估大型语言模型的测试系统

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-05-30T15:30:52Z
牛津研究证明人工智能越温暖越不可靠

牛津大学的研究发现,人工智能聊天机器人越温暖,越容易犯错并迎合用户。温暖训练使机器人更倾向于认可用户的错误观点,导致准确性显著下降。研究表明,温暖与准确性之间存在矛盾,用户应提高警惕,验证信息的真实性,以免被温暖的表象误导。

牛津研究证明人工智能越温暖越不可靠

极道
极道 · 2026-05-25T12:29:00Z
黑客正在学习利用聊天机器人的‘个性’

黑客利用聊天机器人的个性进行攻击,最初通过引导机器人忽视安全指令获取敏感信息。随着技术进步,黑客开始运用心理战术操控对话,诱使聊天机器人泄露禁止内容。未来,心理学和社交技巧将成为AI安全领域的重要技能。

黑客正在学习利用聊天机器人的‘个性’

The Verge
The Verge · 2026-05-24T12:00:00Z
谷歌的AI搜索如此失灵,以至于它可以“忽视”你正在寻找的内容

谷歌的AI搜索在处理“disregard”或“ignore”等词时出现问题,AI概述部分未能提供正常结果,而是给出了类似传统聊天机器人的回应。谷歌尚未对此作出回应。

谷歌的AI搜索如此失灵,以至于它可以“忽视”你正在寻找的内容

The Verge
The Verge · 2026-05-22T20:39:54Z
Datadog和T-Mobile领导者揭示了在生产中部署AI代理的现实

在纽约举行的AI代理会议上,专家讨论了AI代理在企业中的应用,特别是在客户服务和聊天机器人方面。尽管AI编码代理的使用日益普及,但其生成的代码在生产中仍不可靠。企业如T-Mobile正在利用AI代理处理大量客户对话。与会者强调AI代理的安全性和企业采用是当前的重点,未来将关注“纠缠代理”以适应客户需求。人类监督仍然是AI代理成功的关键。

Datadog和T-Mobile领导者揭示了在生产中部署AI代理的现实

The New Stack
The New Stack · 2026-05-09T12:00:00Z
AI代理与聊天机器人:关键区别解析

本文讨论了聊天机器人与AI代理的区别。聊天机器人仅生成文本响应,适用于简单任务;而AI代理能够通过外部工具自主执行任务,适合复杂问题。选择合适的架构和基础设施(如Redis)对提高性能至关重要。

AI代理与聊天机器人:关键区别解析

Redis Blog
Redis Blog · 2026-05-06T00:00:00Z

本文介绍了针对聊天机器人输入注入攻击的五层纵深防御方案:第一层通过正则表达式拦截已知攻击模式;第二层使用语义意图分类判断输入是否有注入意图;第三层在输出前检查敏感数据;第四层分析用户行为以识别攻击模式;第五层记录安全决策以便审计。这五层防御相辅相成,旨在全面提升系统安全性。

读:Prompt Injection 五层纵深防御——从输入过滤到审计追踪

暗无天日
暗无天日 · 2026-05-01T00:00:00Z

我体验了New Bing,这是一款基于人工智能的搜索引擎聊天机器人。它能回答问题并提供幽默对话,引用来源的准确性优于ChatGPT。尽管在某些问题上表现不如预期,但整体体验更佳,未来可能更受欢迎。

体验 New Bing:一个比 ChatGPT 更强大、更幽默、更有用的搜索引擎聊天机器人

了迹奇有没
了迹奇有没 · 2026-04-30T06:18:05Z
如何构建专属语言的大语言模型 [完整手册]

本文介绍了如何从零开始构建乌尔都语的大语言模型(LLM),涵盖数据准备、标记化、预训练、监督微调和部署等步骤。重点在于通过实践理解LLM的工作原理,最终目标是创建一个可用的乌尔都语聊天机器人,并提供技术栈和代码示例。尽管模型较小,数据集有限,但每个步骤展示了构建LLM的基本概念。

如何构建专属语言的大语言模型 [完整手册]

freeCodeCamp.org
freeCodeCamp.org · 2026-04-24T20:59:02Z
都让让!赛博女娲蒸馏一切,让乔布斯马斯克集体给你打工

该项目旨在开发一个能够提取个人思维方式的聊天机器人,重点是帮助用户重新思考问题,而非追求全面的认知能力。尽管AI写作迅速,但缺乏深度情感,真正的思考和创造仍需人类完成。

都让让!赛博女娲蒸馏一切,让乔布斯马斯克集体给你打工

量子位
量子位 · 2026-04-21T06:26:50Z
人工智能治理手册:如何构建真正可交付的负责任AI系统

2024年,加拿大法庭裁定加拿大航空公司需对其聊天机器人的虚假丧失政策负责,尽管赔偿仅为812加元,此判决强调公司需对AI的错误承担责任。2019年的研究指出,医疗算法系统性忽视黑人患者。AI事件数据库记录了700多起失败案例,凸显治理问题的重要性。文章提供了构建AI治理系统的四个Python组件,包括模型卡生成器和偏见检测管道,以帮助开发者遵循EU AI法案和NIST AI风险管理框架。

人工智能治理手册:如何构建真正可交付的负责任AI系统

freeCodeCamp.org
freeCodeCamp.org · 2026-04-13T23:13:29Z
10个GitHub项目让Claude变身生产力神器助你效率翻倍

本文介绍了10个开源GitHub项目,旨在提升Claude聊天机器人的功能,支持代码编写、营销和研究等专业任务。用户可通过简单命令安装技能,轻松构建AI工作流,提高工作效率。这些项目包括Repomix和Everything Claude Code等,适合不同需求,且大部分免费。

10个GitHub项目让Claude变身生产力神器助你效率翻倍

极道
极道 · 2026-04-03T22:03:00Z
5分钟看懂OpenClaw:自动任务系统的底层逻辑与实战路径

OpenClaw是一个超越传统聊天机器人的自动任务系统,通过管理上下文和多智能体实现任务自动化。用户可通过手机远程指挥,轻松发任务。系统具备清理内存和个性化设置功能,提升工作效率。通过任务拆分和事件触发,OpenClaw帮助用户构建高效工作流程。

5分钟看懂OpenClaw:自动任务系统的底层逻辑与实战路径

极道
极道 · 2026-04-02T02:17:00Z
TTFT的含义:首次令牌时间对您的大型语言模型应用程序的启示

TTFT(首次令牌时间)是评估聊天机器人响应速度的重要指标,直接影响用户体验。它包括网络延迟、请求排队时间和模型处理时间。通过缓存、压缩提示和改进基础设施可以优化TTFT,从而提升用户满意度。

TTFT的含义:首次令牌时间对您的大型语言模型应用程序的启示

Redis Blog
Redis Blog · 2026-04-02T00:00:00Z
Chat SDK新增Zernio支持

Chat SDK现在支持Zernio,一个统一的社交媒体API,用户可以通过Zernio适配器在多个平台(如Instagram、Facebook、Telegram等)上构建聊天机器人。不同平台的功能支持有所不同,具体文档可供参考。

Chat SDK新增Zernio支持

Vercel News
Vercel News · 2026-04-01T14:00:00Z
开始使用Dify

Dify是一个用户友好的AI平台,支持无技术背景的用户构建和部署多种AI应用,如聊天机器人、智能工作流和文本生成器。用户可利用其知识功能和内置工具快速创建和测试应用。

开始使用Dify

Dify AI
Dify AI · 2026-03-31T00:00:00Z
Chat SDK将智能代理带给用户

文章讨论了Chat SDK的开发,旨在简化聊天机器人在多个平台(如Slack、Microsoft Teams、WhatsApp等)的集成。通过抽象化不同平台的API,开发者可以使用统一的代码库构建和部署聊天机器人,解决了平台间的不一致性问题。Chat SDK支持实时格式化和状态管理,提升了机器人的功能和用户体验。

Chat SDK将智能代理带给用户

Vercel News
Vercel News · 2026-03-19T04:00:00Z
麻省理工学院新课程利用人类学改善聊天机器人

麻省理工学院教授们开设了一门跨学科课程,旨在设计人性化聊天机器人,帮助年轻人适应成年生活。课程结合人类学与计算机科学,鼓励学生开发改善用户生活的AI工具,如帮助毕业生应对独立生活的“Pond”和提供可信新闻的“News Nest”。学生在学习技术的同时,也满足人文学科的要求,促进职业发展。

麻省理工学院新课程利用人类学改善聊天机器人

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-11T16:10:00Z
MarketReader如何利用TimescaleDB处理每分钟300万笔交易,以提供美国市场交易洞察

MarketReader成立于2021年,专注于美国市场动态分析。通过Tiger Data简化架构,实时处理高达3000条市场数据更新,利用Postgres和TimescaleDB实现高效的时间序列分析,提升客户体验。未来将与投资公司合作,增强聊天机器人智能。

MarketReader如何利用TimescaleDB处理每分钟300万笔交易,以提供美国市场交易洞察

Timescale Blog
Timescale Blog · 2026-03-03T17:02:18Z
RAG指标:如何衡量和优化你的检索管道

用户询问重置密码时,聊天机器人能快速提供正确答案,但询问退款政策时却返回不相关信息。RAG指标用于识别问题,优化架构和度量标准。检索质量、生成准确性和系统可靠性是关键,选择合适的指标应基于架构设计,以确保在生产环境中平衡质量、成本和速度。

RAG指标:如何衡量和优化你的检索管道

Redis Blog
Redis Blog · 2026-03-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码