BriefGPT - AI 论文速递 ·

基于学习的重量级命中者和流量频率在流中的估计

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

本文探讨了多种基于机器学习和哈希技术的频率估计算法，提出了改进隐私保护和效用平衡的方法，包括DPSW-Sketch算法、在线哈希模型和混合化草图算法。实验结果表明，这些方法在性能和隐私保障方面优于传统算法。

🎯

❓

DPSW-Sketch算法基于计数最小化技术，能够在子线性时间和空间内近似估计频率，同时满足隐私性要求，并在效用和隐私权之间取得显著权衡。

混合化草图算法结合了联邦学习和安全加密协议，能够更准确地处理多轮次频率估计问题，并根据实际情况设置草图大小。

在线哈希模型适应流数据的在线学习，通过理论分析和大量实验验证了其竞争效率和效果，能够优化数据样本之间的相似损失。

基于熵局部敏感哈希的分布式分层哈希方案显著减少了网络流量，提高了应用程序的运行效率。

通过分布式算法，提出了一种隐私保护的方法，能够发现用户生成数据流中的高频数据，实验证明该方法在隐私和效用之间取得了良好的平衡。

研究提出了一种基于单词级哈希函数的模型计数方法，利用复杂的 SMT 求解器，为概率推理中的计数问题提供了新思路。

🏷️