小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《大模型时代的奖励黑客与缓解策略》

一篇研究论文首次形式化了大模型时代的奖励黑客行为,揭示了目标压缩、优化放大和评估器-策略协同适应三要素的交互作用导致的安全失效。论文提出了三类缓解策略:增强表示、鲁棒策略优化和评估器-策略解耦,以应对奖励黑客现象。

一分钟读论文:《大模型时代的奖励黑客与缓解策略》

Micropaper
Micropaper · 2026-04-18T00:00:00Z
微软发布 Agentic AI 系统故障模式综合指南

微软AI Red Team发布了关于Agentic AI系统故障模式的分类报告,强调了安全性和保障性的新挑战。报告指出了多种安全故障及其缓解策略,强调在设计中融入安全性和负责任的人工智能原则,以确保系统可靠性和用户信任。

微软发布 Agentic AI 系统故障模式综合指南

实时互动网
实时互动网 · 2025-04-28T02:24:29Z

本研究探讨了基准数据污染对大规模语言模型评估的影响,并系统性检验了现有缓解策略的有效性。结果表明,现有策略未能显著提高抵御污染的能力,强调了设计更有效缓解策略的必要性。

The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for Benchmark Data Contamination in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究针对医学大型视觉语言模型(Med-LVLMs)生成幻觉的问题,提出了MedHEval基准,评估幻觉的三种根本原因及其缓解策略。结果表明,现有策略效果有限,需要改进训练以提升模型的可靠性。

MedHEval: A Benchmark for Hallucinations and Mitigation Strategies in Medical Large Visual Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究探讨了大型语言模型(LLMs)在隐私泄露、幻觉输出和价值失调等方面的内在风险及其恶意使用现象。论文提供了一个统一框架,综述了针对这些问题的缓解策略,涵盖数据收集、预训练、微调、推理及后处理的最新进展,旨在提升LLMs在隐私保护和减少幻觉等方面的表现。

A Survey on Responsible Large Language Models: Inherent Risks, Malicious Use, and Mitigation Strategies

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究探讨了文本基础联系方式中的沉默放弃现象,指出客户未通知离开会浪费代理的时间和资源。通过模型分析,揭示了这一现象对代理效率和系统容量的负面影响,并提出了提高客户耐心和降低放弃率的缓解策略。

Silent Abandonment in Text-Based Contact Centers: Identifying, Quantifying, and Mitigating Its Operational Impacts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z

本研究探讨了大型语言模型(LLM)在缺乏标签反馈时的自我修正机制,发现其输出不稳定且存在认知偏差。提出了两种策略以改善模型表现。

Understanding the Dark Side of Intrinsic Self-Correction in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究探讨了大型语言模型中的锚定偏差,发现初始信息对判断的影响不成比例。实验验证了该偏差及其缓解策略,强调全面收集信息的重要性。

Anchoring Bias in Large Language Models: An Experimental Study

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z
Kubernetes上的DDoS攻击:有效的解决方案

DDoS攻击对Kubernetes环境构成威胁,可能导致停机和性能下降。有效的缓解策略包括实施网络策略、速率限制、集成WAF、负载均衡、自动扩展、设置资源限制、利用云提供商的DDoS保护、监控和遵循安全最佳实践。虽然无法完全消除风险,但这些策略可增强Kubernetes的韧性。

Kubernetes上的DDoS攻击:有效的解决方案

DEV Community
DEV Community · 2024-11-17T16:44:40Z

本研究分析了深度学习模型在图像识别中的后门攻击,并评估了现有缓解策略的有效性。通过基准测试16种方法,发现保护效果存在显著差异,并提出了未来改进防御机制的方向。

Countering Backdoor Attacks in Image Recognition: A Survey and Evaluation of Mitigation Strategies

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-17T00:00:00Z

研究探讨了大型多模态模型在语言、视觉和音频中出现幻觉的问题,限制了实际应用。提出“多模态的诅咒”基准,分析原因,强调跨模态学习中平衡与缓解策略的重要性。通过对比学习等方法减少幻觉,提高性能,并提出评估和缓解策略,如CrossCheckGPT和Hallu-PI,旨在解决多模态模型中的幻觉问题。

多模态的诅咒:评估大型多模态模型在语言、视觉和音频中的幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究探讨了大型语言模型在指令微调后上下文依赖性降低的现象。通过“上下文参数反演”,揭示了模型在微调初期依赖性上升但随后下降的趋势,并提出了一些缓解策略。

Context-Parametric Inversion: Why Instruction Fine-tuning May Not Actually Improve Context Dependence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本研究探讨了大型语言模型(LLMs)在代码生成中的“幻觉”问题,定义并分类了代码幻觉,开发了CodeHalu基准测试集以检测幻觉现象。研究发现,LLMs生成的代码中19.7%存在幻觉,强调了改进模型和训练方法的必要性。实施缓解策略后,幻觉率显著降低,为未来的代码生成提供了重要见解。

实际代码生成中的LLM幻觉:现象、机制与缓解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文探讨了大型语言模型(LLMs)中的幻觉现象,分析了其检测、解释和缓解方法。研究表明,LLMs在生成虚假文本方面存在固有倾向,并提出了幻觉的分类和评估基准,强调理解和减轻幻觉的重要性,以提高LLMs的可靠性。

大型语言模型总会出现幻觉,我们需要与此共存

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

大型语言模型(LLMs)在多语言环境中存在安全隐患,研究表明多语言模型更易受攻击。通过自卫框架训练可以减少不安全内容,低资源语言的恶意提示导致更多无关回答。研究提出的新算法和缓解策略显著降低了攻击成功率,强调了加强安全措施的必要性。

逆境而行:克服多语言嵌入反转攻击中的类型、脚本和语言混淆

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

该论文介绍了评估语言模型中社会偏见的多个数据集和方法,如StereoSet和CrowS-Pairs。研究发现,现有模型普遍存在性别、职业、种族和宗教等偏见,并提出了新的评估指标KLDivS和JSDivS,显示出更好的稳定性和可解释性。此外,研究还探讨了多模态语言模型中的社会偏见及其缓解策略,强调多样化提示的重要性。

口语立体集:在语音中评估对说话者的社会偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

本文综述了大型语言模型(LLM)幻觉的研究进展,包括幻觉的分类、检测方法和缓解策略。研究评估了不同模型的幻觉水平,提出了改进的评估框架,并探讨了未来研究方向,以加深对幻觉现象的理解和解决方案的开发。

理解声音,忽视问题:大型音频语言模型中的对象幻觉挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本文提出了一种基于马尔可夫链的多代理辩论验证框架,旨在提高语言模型中幻觉的检测准确性。研究构建了新的幻觉基准,设计了有效的检测方法,系统分析了幻觉的来源及缓解策略,显著提升了检测性能,为理解和解决语言模型中的幻觉问题提供了重要发现。

LLM 幻觉检测的概率框架:基于信念树传播

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文探讨神经机器翻译中的幻觉现象,提出多种检测和缓解方法,包括基于不确定性的检测、跨语言嵌入提高检测精度,以及基于置信度的同传框架。研究旨在构建更稳定的翻译系统,并发布相关数据集以支持未来研究。

关于同时机器翻译中的虚构问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

美国土安全部发布了关于缓解AI风险的安全指引,强调风险管理是持续过程,提供具体缓解策略和与NIST AI RMF的对照映射。

简析美国土安全部发布关于缓解AI对关键设施风险的安全指引

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-05-09T14:28:16Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码