机器之心 ·

破解联邦学习中的辛普森悖论，浙大提出反事实学习新框架FedCFA

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

AIxiv专栏促进学术交流，报道超过2000篇内容。浙江大学团队提出FedCFA框架，解决联邦学习中的辛普森悖论，通过反事实学习生成样本，提升模型准确性。该研究已被AAAI 2025接收。

🎯

🔎

辛普森悖论在联邦学习中可能导致全局模型无法准确反映数据的真实分布。这种现象使得模型在不同客户端的数据上表现良好，但在全局数据上却出现相反的趋势，影响模型的准确性。理解这一点对于研究人员在设计和优化模型时至关重要。

反事实学习通过生成虚拟样本帮助模型理解因果关系，避免学习到虚假的特征-标签关联。在联邦学习中，应用反事实学习可以有效缓解辛普森悖论带来的问题，使得全局模型更准确地反映整体数据分布。这一方法的有效性在实验中得到了验证，显示出其在实际应用中的潜力。

FedCFA框架通过生成与全局平均数据对齐的反事实样本，解决了联邦学习中的数据偏见问题。这种创新不仅提升了模型的准确性，还为未来的研究提供了新的思路，尤其是在处理数据异质性和不平衡性方面。研究人员应关注这一框架的进一步应用和优化。

❓

辛普森悖论是一种统计现象，当数据分成子组时，某些趋势在每个子组中一致，但在整体数据集中却出现相反的趋势。

FedCFA通过在客户端生成与全局平均数据对齐的反事实样本，缓解数据偏见，从而避免错误的特征-标签关联。

反事实学习通过生成虚拟样本，帮助模型理解数据中的因果关系，避免学习到虚假的关联。

实验显示，FedCFA在辛普森悖论数据集上提升了模型的准确率，相比于FedAvg和FedMix，表现更优。

FedCFA利用中心极限定理，通过聚合多个客户端的本地平均数据，构建一个近似全局数据分布的全局平均数据集。

因子去相关损失用于减少提取特征因子之间的相关性，确保每个特征因子只携带单一信息，从而提高反事实样本的质量。

🏷️