OpenAI推出Codex插件,支持Claude Code,允许开发者进行标准代码审查、对抗性审查和任务救援,无需切换工具。安装要求为Node.js 18.18及以上,并需使用ChatGPT或OpenAI API登录。
本研究提出了一种新型净化方法FlowPure,通过条件流匹配提升机器学习模型的对抗性鲁棒性。实验结果表明,FlowPure在多种场景下优于现有方法,并保持良好的分类准确率。
本研究提出了一种新型对抗性多目标优化技术,解决了手动调优聚合函数的效率和适用性问题。该技术通过对抗性差分判别器引导优化,提升了角色的灵活性和杂技表现,且质量与先进运动跟踪方法相当,拓展了应用潜力。
本研究解决了大型语言模型(LLM)在对抗性提示生成中的安全性和多样性不足的问题。提出的RainbowPlus框架基于进化计算,采用自适应质量-多样性搜索,能够存储多样且高质量的提示,并显著提高生成效率和提示的独特性。实验结果显示,RainbowPlus在攻击成功率和多样性方面超过了现有方法,为LLM安全评估提供了可扩展的工具。
本研究探讨了Kolmogorov和Arnold的表示定理在对抗性攻击中的稳健性,发现其对可数集合的连续对手具有一定的稳健性,但在外部函数的等连续性方面存在障碍,限制了其在神经网络理论中的应用。
本研究探讨了深度神经网络在局部损坏下的空间鲁棒性,提出了评估框架和多种攻击对抗分析方法,揭示了不同模型对损坏的反应差异,为提升视觉任务的可靠性提供了新见解。
本研究解决了图像分类模型在受损数据上表现不佳的问题,尤其是影响了不同人口子群体的表现,导致算法偏见。提出了一个新颖的评估指标,结合公平性策略和对抗性最小化方法FairSAM,旨在确保受损环境下各人口群体间的表现公平。实验结果表明,FairSAM有效地平衡了鲁棒性与公平性,为受损数据下的公平且强健的图像分类提供了结构化解决方案。
本研究提出了一种新方法AdvWT,通过利用物体自然损耗生成对抗样本,克服了现有方法的局限性。实验结果表明,AdvWT能够保持损伤外观的自然真实性,并有效误导深度神经网络。
本研究解决了在说话人验证任务中,由于真实数据集中类别多样性不足而造成的学习问题。提出的CAARMA框架通过在嵌入空间中进行数据混合生成合成类别,从而扩展了训练类别数量,并采用对抗性精炼机制确保合成类别的真实性。研究表明,该框架在多个说话人验证任务中相比基线模型显著提高了8%的性能。
本研究提出了CurvaLID防御框架,旨在解决大型语言模型在安全部署中面临的对抗性提示挑战。该框架通过几何特性高效检测对抗性提示,揭示其与良性提示的区别,展现出优越的检测和拒绝能力。
本研究提出了一种对抗性分词方法,解决了大语言模型只考虑单一分词方式的问题,展示了其在绕过安全限制方面的有效性,并揭示了子词模型的新漏洞。
本研究解决了现有扩散纯化方法中普遍噪声处理导致正常像素受到影响的问题。我们提出了一种基于神经网络可解释性的异构纯化策略,该策略针对目标模型关注的特定像素施加高强度噪声,而其他像素仅施加低强度噪声。实验证明,我们的方法在处理强适应性攻击时显著降低了时间和内存消耗,并且在多个数据集上优于现有的对抗训练和纯化技术。
本研究针对现有预训练语言模型在情感识别任务中对细微情感信息捕捉不足的问题,提出了一种新的框架来增强基于变换器模型的情感感知嵌入。通过引入连续的价值-唤醒标签系统和动态令牌扰动机制,本框架有效提升了模型对情感线索的敏感度,并在情感分类基准上实现了高达15.5%的性能提升,证明其在情感表征学习中的有效性。
本研究提出了一种新的窃取攻击方法——对抗性领域对齐(ADA-STEAL),针对医疗多模态大型语言模型的知识产权脆弱性。该方法通过数据增强和对抗噪声,利用自然图像克服医学图像与自然图像的分布差异,实验表明攻击者可在没有医疗数据的情况下窃取MLLM的功能。
本研究解决了传统图像注册方法无法处理极高分辨率组织清晰图像的问题。我们提出了一种基于生成网络的补丁方法InvGAN,该方法能够有效注册清晰组织数据集中的图像。实验表明,InvGAN在高分辨率条件下显著提高了注册效率,与传统方法相比,其执行时间缩短至仅10分钟,展示了其在生物医学图像分析中的潜在应用价值。
本文提出了一种名为READ的文本分类方法,结合强化学习与对抗性学习,旨在解决标注数据稀缺的问题。通过生成多样化的合成文本,提升模型的泛化能力。实验结果表明,READ在多个数据集上优于现有方法。
本研究解决了领域适应过程中机器学习模型在真实数据上表现不佳的问题,采用了对抗性辨别领域适应(ADDA)技术进行数字分类实验。实验结果表明,ADDA在某些领域迁移上显著提升了分类准确率,同时对原领域的影响较小,且为ADDA在一些领域迁移中表现不佳的原因提供了潜在解释。
本研究解决了合成行人轨迹在训练预测模型时的不现实性问题。提出了一种新的对抗性方法,在训练过程中增强合成轨迹,这显著提升了生成模型在真实轨迹上的表现。研究结果表明,该方法能够有效提高行人轨迹预测的准确性,具有重要的应用价值。
本研究针对大型语言模型(LLM)工具调用中的安全漏洞进行了深入探讨,提出了一种新的框架ToolCommander,用于通过对抗性工具注入来利用这些漏洞。研究发现,该框架实现了91.67%的隐私盗窃成功率,100%的拒绝服务和非计划工具调用成功率,强调了需要强有力的防御策略来保护LLM工具调用系统的紧迫性。
本研究提出了一种新的对抗净化方法CMAP,旨在解决深度神经网络的脆弱性问题。通过优化一致性模型生成样本,显著提升了对抗攻击的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。