该研究解决了通过观察数据推断因果效应时潜在混淆因素的挑战。论文提出了一种基于变分自编码器的解缠代表学习方法,能够在不明确识别工具变量的情况下,从潜在混淆因素数据集中学习工具变量表示,并实现因果效应的无偏估计。实验结果表明,该算法在合成数据和真实世界数据上均优于现有的工具变量基估计器和变分自编码器基估计器。
本文探讨了一种基于变分推理的无监督学习方法,旨在从未标记数据中推断潜在因素并实现解缠。研究提出了新的分离度量和目标函数,显著提高了变量的解缠能力和泛化性能。通过引入反Wishart先验,优化了深度生成模型中的潜变量表征,实验结果表明该方法在多个数据集上优于现有技术。
本研究针对传统知识追踪模型忽视学生选择的多项选择题答案所蕴含的信息问题,提出了基于概念图的响应解缠方法(CRKT),以增强知识追踪能力。该方法通过分析学生的未选答案,跟踪概念层次的知识状态,进而提升预测能力和反馈质量,显著提高了预测准确性和可解释性。
本文介绍了多种基于深度学习的水文模型和算法,如KGSSL框架、RKN循环卡尔曼网络和HydroNets模型。这些模型在流量建模、河流预测和运动预测等领域表现优异,能够有效处理复杂数据并提高预测精度。
研究了高攻击成功率和良好泛化性的高效基于评分的黑盒对抗攻击方法,提出了一种基于分层解耦特征空间和跨域的新颖攻击方法 DifAttack++,通过自编码器和我们特别设计的 Hierarchical Decouple-Fusion(HDF)模块将图像的潜在特征分解为对抗特征(AF)和视觉特征(VF),在黑盒攻击阶段, DifAttack++ 根据受害模型的查询反馈迭代优化...
用机器学习将数据集的信息划分为有意义的片段,通过研究多次训练运行中学习的通道作为信息片段的整合,并将表示子空间视为数据嵌入的概率分布进行相似度比较,最终实现 VAE 的集成学习以提升信息内容。
本文介绍了多种3D人体运动捕捉和恢复方法,包括利用自我注意力机制的骨架解耦技术、SportsCap和DynamicDepth等。研究表明,通过无监督学习和多模态信息可以有效提高运动捕捉的精度,并提出了新算法以解决动态物体运动和遮挡问题,从而显著提升捕捉的准确性和鲁棒性。
本文介绍了一种多任务和敌对目标的语言模型,旨在解决风格与内容的解缠问题,从而提高风格迁移的精度和流畅度。研究提出了新的解缠编码方法和深度学习模型,强调无监督学习在文本领域的应用及其挑战,并展示了在图像生成和人脸反欺诈中的创新方法。
FaceTalk 是一种新颖的生成方法,通过音频信号合成高保真度的3D说话人脸部运动。研究提出了多个框架,如 DreamTalk 和 VividTalk,利用扩散模型和纹理几何信息,提升了唇语同步和面部表情的生成质量。SadTalker 和 DiffTalker 进一步优化了3D头部姿态和表情合成,展示了优于传统方法的性能。
该研究提出了动态聚类变换网络(DCTNet),用于三维点云分割,采用编码器-解码器架构学习特征,性能优于现有模型。同时,介绍了基于八叉树的OcTr方法,增强了远距离物体检测能力,并在多个数据集上取得最佳结果。
本研究提出了多种医学图像分割方法,采用对比训练、样式增强和半监督学习等技术,显著提升了模型的泛化能力,尤其在数据标注稀缺的情况下表现优越。实验结果表明,这些方法在多个基准数据集上均优于现有技术,提供了有效的解决方案。
该论文提出了一种新的多源蒸馏领域自适应网络(MDDA),通过预训练源分类器、特征空间映射、源样本微调和域权重聚合等四个阶段,显著提升了目标数据的预测性能。同时,研究探讨了多源域适应的概念及其在深度学习中的发展趋势,为相关研究提供了参考。
通过对ImageNet上的多个任务进行综合评估,发现尚未实现解缠,同时揭示了在特定任务上表现出色的不确定性估计器,为从业者提供了见解,并指导未来研究。
该论文介绍了Contrastive Guidance方法,通过对分类器的简单修改,在文本到图像模型中解开图像因素,提供更精细的控制。该方法使用两个提示来描述所需的因素,其中正面提示描述待合成的图像,基准提示作为“基准”以解开其他因素。该方法在三个场景下的优势体现为:领域特定扩散模型的训练、文本到图像生成的控制以及零-shot图像编辑器的性能提升。
我们介绍了 “解缠图自编码器” 和 “解缠变分图自编码器”(DGA 和 DVGA)的方法,其利用生成模型学习解缠表示,通过设计多通道信息传递层的解缠图卷积网络作为编码器,以及引入在不同潜在因素上的独立性约束,我们的方法在合成和真实数据集上实验表明其优越性。
本文介绍了一种分解的分层变分自动编码器,能够无监督地学习序列数据的分离和可解释的表征。该模型在转换说话人或语言内容以及说话人验证和自动语音识别任务中优于基线模型。
提出了一种基于注意力的交互式解耦网络(AINN)来实现情感语音转换,该网络利用实例级情感知识进行训练,通过两个阶段的设计有效地模拟情感细节,并通过多视图一致性机制规范转换过程,从而优于现有的情感语音转换研究。
我们提出了一种自编码器方法,通过重新组织 StyleGAN 的潜空间,实现属性解缠。实验证明了我们的方法在编辑能力上超越了竞争方法,同时在保持图像身份一致性方面具有高度准确性。
该研究介绍了使用WavLM预训练模型的生成模型“diffmotion-v2”,能够通过原始语音音频产生个体化和风格化的全身共说手势。实验验证了该模型合成具有不同风格的自然共说手势的能力。
本文提出了基于解缠干预的动态图注意力网络的方法来处理动态图中的时空分布变化,并发现和利用稳定的具有预测能力的不变模式。实验证明我们的方法在分布变化下优于现有基线模型。
完成下面两步后,将自动完成登录并继续当前操作。