小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
构建安全的AI代理

AI代理是具备系统提示和工具的语言模型,工具虽然增强了模型能力,但也引入了安全风险,尤其是提示注入。攻击者可能通过注入命令来操控模型,因此设计时需假设攻击者控制整个提示。应限制工具权限,确保模型仅能访问用户授权的内容,并对模型输出进行清理,以降低潜在风险。安全的关键在于减少错误行为的影响,而非单纯信任模型。

构建安全的AI代理

Vercel News
Vercel News · 2025-06-09T13:00:00Z

本研究提出了一种新的信心校准框架,解决视觉语言模型(VLMs)口头信心与响应正确性之间的校准问题。通过引入带有高斯噪声的扰动数据集,显著提高了模型的校准能力,增强了用户对模型输出的信任度。

Object-Level Verbal Confidence Calibration in Vision-Language Models Based on Semantic Perturbation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

Prompt工程技术通过设计输入文本来引导大语言模型生成高质量输出,优化人机交互,广泛应用于客服和编程助手等领域。案例中使用DeepSeek V3模型API,介绍了样本提示、思维链提示和链式提示三种控制模型输出的方法,以提升任务完成质量。

DeepSeek大模型Prompt工程深度实践(开发者空间Notebook版)

华为云官方博客
华为云官方博客 · 2025-04-11T09:29:56Z
Google 官方提示工程 (Prompt Engineering)白皮书

本文探讨了提示工程在大型语言模型中的关键作用,强调设计清晰简洁的提示以优化模型输出。通过实验和记录,提示工程师能够提升提示质量,增强模型的理解与生成能力。

Google 官方提示工程 (Prompt Engineering)白皮书

宝玉的分享
宝玉的分享 · 2025-04-10T17:08:57Z

本文介绍了如何通过DeepSeek V3模型API调节温度和top_p参数,以控制模型输出。温度参数影响回答的随机性,低值稳定高值创意;top_p参数控制文本多样性,低值精准高值灵活。两者结合可实现不同场景的输出效果。

开发者必备!基于开发者空间的 DeepSeek 模型 API 调用及参数调试攻略

华为云官方博客
华为云官方博客 · 2025-04-08T08:10:15Z

本研究提出了一种名为SPEX的模型无关交互归因算法,克服了现有方法在处理大型输入时的局限性。SPEX通过稀疏傅里叶变换高效识别重要特征交互,实验结果显示其在重建模型输出方面比边际归因方法提高了20%。

SPEX:大规模特征交互解释的扩展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z
解决AI工作流中的向量维度不匹配问题

在使用n8n和Pinecone开发AI代理工作流时,常见问题是向量维度不匹配,尤其是嵌入维度从768变为1536。解决方法包括确认模型输出与Pinecone索引配置的一致性,调整模型输出或配置索引,以确保系统高效运行。

解决AI工作流中的向量维度不匹配问题

DEV Community
DEV Community · 2025-02-09T23:26:48Z

本研究分析了采样基础搜索的缺陷,提出通过扩展简约实现来提升推理能力和验证精度。主要发现包括响应比较可能导致错误信号,不同模型输出适用于不同上下文,以及前沿模型在验证能力方面的不足。

Sampling, Review, and Expansion: Achieving Effective Inference-Time Search through Extended Validation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文探讨无监督依赖解析中的问题,提出了一种高效的集成选择方法,通过后期聚合多样化模型的输出,显著提升了性能和鲁棒性。

The Importance of Error Diversity: An Error-Resilient Ensemble Method for Unsupervised Dependency Parsing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
Azure OpenAI C# 的一些经验分享

本文分享了使用Azure OpenAI的实践经验,包括模型输出处理、内容过滤和错误信息。对于不支持标准输出的模型,需要传入JSON模式或示例文档。内容过滤时返回200状态码,但响应会被截断。支持结构化输出的模型可使用CreateJsonSchemaFormat方法。

Azure OpenAI C# 的一些经验分享

DEV Community
DEV Community · 2024-11-20T21:01:12Z

本文探讨上下文知识编辑对模型输出的影响,并研究检测和逆转的方法。结果显示,通过恢复标记可以超过80%的准确率恢复原始输出,这为提升大型语言模型的透明度和可信度提供了重要见解。

我们能逆转上下文知识编辑吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

我成功完成了Whisper模型的最后微调,模型输出符合需求,自然、对话性强,非常适合项目目标。微调阶段已完成,对模型充满信心,相信能满足项目要求。

第30天:

DEV Community
DEV Community · 2024-09-06T07:18:10Z
通过基于规则的奖励提升模型安全行为

研究表明,基于规则的奖励(RBRs)显著提升了AI系统的安全性和可靠性。RBRs通过简单规则评估模型输出,避免了人类反馈的低效,确保AI行为的安全与有效。

通过基于规则的奖励提升模型安全行为

OpenAI
OpenAI · 2024-07-24T09:00:00Z

该论文介绍了SHROOM共享任务,旨在检测自然语言生成系统输出中的过度生成问题。共享任务使用了一个新的数据集,包含4000个模型输出,涵盖了机器翻译、释义生成和定义建模等自然语言处理任务。共有42个团队参与,其中27个团队撰写了系统描述论文。研究发现,许多参与者依赖少数模型,并使用合成数据或零-shot提示策略进行微调。大多数团队的表现超过基准系统,但得分最高的系统与随机处理一致。

SemEval-2024 Shared Task 6: SHROOM,一个关于幻觉和相关可观察溢出错误的共享任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

OpenAI发布了Prompt Engineering指南,分享了从GPT-4等大型语言模型获得更好结果的策略。指南提供了六项策略,包括写下清晰的指示、提供参考文字、将复杂任务拆分为简单子任务、给模型时间思考、使用外部工具和系统地测试变更。这些策略可以帮助用户获得更准确和可靠的模型输出。

OpenAI完整提示工程指南要点

极道
极道 · 2023-12-15T05:53:00Z

该研究探讨了大语言模型(LLM)对真实性的表示结构,提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。同时,介绍了一种新技术,质量均值推断法,具有更好的推广性和更多地与模型输出相关。

真实的几何:大型语言模型在真假数据集表示中的出现线性结构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z

吴恩达和OpenAI合作推出了一门面向开发者的《ChatGPT Prompt Engineering》课程,教授编写Prompt的原则和策略,包括编写清晰、明确的指令和给模型留出思考时间等。这些策略可以提高模型输出的准确性和避免提示注入。

吴恩达Prompt课 - 02 构建原则 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2023-05-01T13:26:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码