小红花·文摘

本研究提出了一种名为DR-编码器的方法，通过引入两阶段随机性来解决联邦微调大型语言模型中的信息泄漏问题。该方法在多个基础模型上显著提高了效率和准确性，并进行了全面的隐私分析。

DR-Encoder: Low-Rank Gradient Encoding for Large Language Models with Random Priors for Differential Privacy

BriefGPT - AI 论文速递 ·

本研究探讨在高风险应用中使用黑箱机器学习模型时，如何平衡透明性、可解释性和用户隐私。通过私密信息检索技术，提出方案保护用户隐私并精确获取反事实解释。尽管如此，数据库仍可能泄漏信息，研究提出减少泄漏的策略以提高隐私保护。

Private Counterfactual Retrieval

BriefGPT - AI 论文速递 ·

本文研究了大型预训练语言模型中的语言知识及其行为，发现模型在不同语言中的表现存在差异。通过微调可以揭示隐藏的语言知识。评估结果表明，模型规模越大，表现越好，但仍存在偏见和错误。提出了一种新评估框架以量化偏见，并探讨了提示设计对模型性能的影响。此外，研究发现模型存在泄漏风险，可能泄露个人信息，并提出了自检测方法以改善检测性能。

喜欢黄色是否意味着开校车？语言模型中的语义泄露

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在文本压缩和知识获取中的应用，提出了二元评价指标。研究发现，GPT-4能够有效压缩文本并保留语义，自主学习方法提升了模型训练效率。LLM-KICK协议用于评估压缩方法的优缺点，强调稀疏化和量化对语言理解的影响。此外，研究还提出了隐私保护和知识消毒的方法，以减少信息泄漏。

大型语言模型中的知识保留：一种模型无关的自解压缩方法

BriefGPT - AI 论文速递 ·

本研究探讨了无监督健康监测在工业故障检测中的应用，比较了自编码器与输入-输出模型的性能，结果显示输入-输出模型在故障解释方面更具优势。此外，研究提出了一种基于统计学习和信息论的框架，用于量化信息泄漏，并验证了其有效性。同时，提出了结合机器学习与统计过程控制的框架，以监测临床数据漂移，展示了在不同任务中的有效性。

基于信息驱动策略的故障检测和监控：方法、理论和应用

BriefGPT - AI 论文速递 ·

本文介绍了一种利用联邦学习模型信息泄漏强化早期注入的单次后门攻击方法，通过两阶段攻击提高攻击的持久性和成功率。在 MNIST 数据集上的实验表明，该方法比现有的后门攻击更具优势。

通过双向选举和个体视角抵御联邦学习的后门攻击

BriefGPT - AI 论文速递 ·

本文提出了一个新的框架，用于处理可解释模型和知识，并证明在对可解释模型结构做出现实的假设的情况下，可以有效地计算重建的不确定性。通过比较精确学习算法和启发式学习算法关联的理论信息泄漏，说明了我们方法的适用性。结果表明，最优解释性模型通常更紧凑，泄露的关于训练数据的信息更少。

可解释模型的概率式数据集重建

BriefGPT - AI 论文速递 ·