小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

LangGraph 通过有向图模型解决 LLM 的幻觉问题,支持循环、状态管理和人机协作,适用于金融等高风险领域,确保输出的确定性和自动回退功能。

LangGraph 是如何让LLM产生确定性输出的?

luozhiyun`s Blog 我的技术分享
luozhiyun`s Blog 我的技术分享 · 2026-01-10T12:46:07Z
Guardrails AI 推出 Snowglobe:AI 代理和聊天机器人的模拟引擎

Guardrails AI推出了Snowglobe,一款用于对话式AI的大规模可靠测试模拟引擎。它能够自动生成多轮对话,帮助开发者识别潜在故障,提升聊天机器人性能,特别适合高风险领域。

Guardrails AI 推出 Snowglobe:AI 代理和聊天机器人的模拟引擎

实时互动网
实时互动网 · 2025-08-15T02:53:24Z
研究表明视觉语言模型无法处理包含否定词的查询

麻省理工学院的研究发现,视觉语言模型在处理否定词时表现不佳,可能导致错误诊断。研究者创建了包含否定词的数据集以提升模型性能,但仍需进一步研究以解决根本问题。这一发现对医疗和制造等高风险领域具有重要意义。

研究表明视觉语言模型无法处理包含否定词的查询

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-05-14T04:00:00Z

本研究提出HalluMix基准,旨在检测大型语言模型在高风险领域中的幻觉内容。评估了七个检测系统的性能,结果显示短文档与长文档在检测效果上存在显著差异。

HalluMix: A Task-Agnostic Multidomain Benchmark for Real-World Hallucination Detection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究探讨了人工智能治理中的现实差距,特别是在高风险领域的关注不足。研究指出,企业在AI部署阶段的研究关注减弱,导致对已部署AI的知识缺陷加深。建议扩大外部研究者对部署数据的访问。

Real-World Gaps in AI Governance Research

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究提出了一种新隐私范式,针对现有隐私框架在顺序决策系统中的不足,强调在医疗和自动驾驶等高风险领域开发新理论和机制以有效保护隐私。

立场论文:在大型语言模型时代重新思考强化学习中的隐私问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
实用的人机协作代理:实操指南

人机协作(HITL)代理结合了自动化与人类判断,适用于需要快速且准确的任务。HITL系统在关键时刻暂停以获取人类输入,确保输出的准确性,广泛应用于高风险领域和创意工作。设置HITL环境需要语言模型和API密钥,示例包括课程计划和财务欺诈检测代理。

实用的人机协作代理:实操指南

DEV Community
DEV Community · 2025-04-12T17:55:24Z

本研究探讨了大型语言模型在情感分析中的模型不确定性与变异性,分析其导致的不一致情感分类问题,并提出缓解策略。强调可解释性在提升透明度和用户信任中的重要性,以推动情感分析在金融、医疗等高风险领域的应用。

基于大型语言模型的情感分析中的模型不确定性与变异性概述:挑战、缓解策略与可解释性角色

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究针对大型语言模型在高风险领域应用中的不可靠性,提出了一种新的不确定性量化分类法,以提升模型的可信度,并揭示了不确定性的来源及提升可靠性的挑战。

Uncertainty Quantification and Confidence Calibration in Large Language Models: A Review

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

张拳石教授探讨了AI模型的可解释性,特别是DeepSeek-R1模型的思维链是否真实反映其推理机制。他提出了“等效与或交互”理论,通过数学符号化解释神经网络的表征逻辑,强调在高风险领域(如医疗、法律)中理解AI决策机制的重要性。

上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈

机器之心
机器之心 · 2025-03-09T11:41:38Z
基于变异分析和多样化测试数据的高信心测试

现代科技公司在金融和医疗等高风险领域采用变异测试和多样化测试数据策略,以提升软件质量。这些方法确保测试能够捕捉真实错误并在不同输入下正常运行。变异测试通过引入小的代码变更,验证现有测试的有效性,从而增强代码的可靠性。

基于变异分析和多样化测试数据的高信心测试

DEV Community
DEV Community · 2025-02-14T16:49:05Z

本文提出了一种自适应少样本学习(AFSL)框架,旨在应对医疗、机器人和自然语言处理等数据稀缺领域的挑战。AFSL通过多个模块提升模型的适应性和鲁棒性,显著改善了少样本学习在高风险领域的应用效果。

Adaptive Few-Shot Learning (AFSL): Tackling Data Scarcity with Stability, Robustness, and Versatility

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了一种创新框架,通过集成方法提升大规模语言模型在医疗、法律和金融等高风险领域的可靠性。在78个复杂案例中,精确度从73.1%提升至93.9%(两个模型)和95.6%(三个模型),显示出显著的改进潜力。

通过集成验证的概率共识:一种大规模语言模型可靠性框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

本研究提出了一种新方法SCOPE-Gen,解决生成模型在安全关键应用中缺乏统计保证的问题。该方法通过逐步处理初始样本,显著减少合规评估次数,提高高风险领域的应用效率。

通过顺序贪婪过滤提高样本效率的符合性生成建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

机器学习模型在高风险领域中被广泛使用,但缺乏实验研究来证明其可解释性。透明度高、特征少的模型更易被模拟,但透明模型可能导致信息过载和难以修正错误。强调了开发可解释模型时实验测试的重要性。

机器学习中的可解释性:与解释性、预测性能和模型的相互作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码