智谱发布并开源GLM-5模型,参数规模达到7440亿,显著提升复杂系统工程和长时域智能体任务的性能。GLM-5在多项基准测试中优于其他开源模型,缩小与前沿模型的差距,支持MIT许可证,任何人均可使用。
本研究解决了现有数据驱动算法未考虑智能电表数据质量的问题,缺乏异常检测机制,无法有效区分异常数据的特征。文章提出了一种基于Isolation Forest算法和快速傅里叶变换过滤的异常检测框架,能够在时域和频域内有效识别和减轻异常数据对电力消耗数据的影响。这一方法的引入对于高比例智能电表的配电网络分析具有重要意义。
本研究提出了一种新的价值迭代算法,旨在提高线性马尔可夫决策过程的计算效率。该算法通过计算访问过的状态集的价值函数最小值,显著提升了效率,并保持了遗憾界限。这一方法有助于在广泛状态空间中有效应用强化学习。
本研究针对强化学习在学习新任务时忽视先验知识的问题,提出了一种通过贝叶斯非参数模型有效捕捉技能多样性的先验知识方法。研究表明,使用这种灵活的技能先验,能够显著提升机器人的学习和执行能力,尤其是在复杂的长时域任务中,促进技能转移和任务成功。
本研究提出了一种双时域通道注意力机制(DTA),旨在解决脉冲神经网络在时间信息利用方面的挑战。实验结果表明,DTA在静态和动态数据集上表现优异,增强了脉冲表示与时间通道关系的捕获能力。
清华大学研究团队提出了轻量级语音分离模型TIGER,结合时频交叉建模和频带切分策略,显著提升了语音分离效果。新数据集EchoSet更真实地模拟了复杂声学环境,实验结果表明TIGER在性能和效率上优于现有模型。
该研究探讨了策略梯度方法在强化学习中的应用,分析了其收敛性和性能保证。结果表明,策略梯度算法在平均奖励马尔可夫决策过程中的收敛速度为O(log(T)),并提供了有限时间的性能保证,强调了与折扣奖励的区别。
本研究解决了神经网络解释机制不透明的问题,提出了LMAC-TD,一种在时域直接生成解释的后处理方法。该方法通过结合SepFormer架构,显著提高了解释的音频质量,同时保持了解释的真实性。
本文介绍了一种基于时间变形对齐网络的视频超分辨率模型,能够动态预测采样卷积核偏移,从而实现高质量的视频重建。研究提出了循环残差网络和双向交互时空超分辨率等新方法,显著提升了计算效率和重建效果。实验结果显示,这些方法在不同视频长度和动态性下均表现优越。
本研究提出了一种基于去噪扩散概率模型的视频建模框架,能够生成长达25分钟的高质量视频。通过引入多种文本条件,扩展了文本驱动视频生成的能力,并提出了新的自我关注计算方式和语义运动预测模块,显著提升了视频生成效果。此外,研究探讨了低质量视频训练高质量模型的可行性,取得了显著成果。
本文提出了一种新的时间链接预测方法,通过节点动态分析提高预测准确性,实验证明在合著网络中性能提升17.34%。研究探讨了动态图神经网络的时间粒度对性能的影响,并提出基于元学习的新模型以快速适应新节点,展示了在动态链接预测中的优越性。
本文介绍了一种高效的视频模型,结合自我关注和 S4 层的优点,显著提升了视频分类性能,速度快且内存占用少。通过长期特征库和高阶交互建模,改善了视频描述生成,取得了领先效果。此外,提出了新型监督学习技术和孪生 LSTM 结构,提升了视频摘要和行人匹配效果,在多个数据集上表现优越。
为了捕捉局部和全局依赖关系,我们在频域和时域中引入了频域与时域混合器 (FTMixer) 来表示时间序列数据,通过频率通道卷积模块 (FCC) 和窗口频率卷积模块 (WFC) 来分别捕捉全局和局部依赖关系。同时,采用独立通道方案混合时域和频域补丁以更好地捕捉局部依赖关系。通过七个真实世界的长期时间序列数据集的广泛实验结果表明,FTMixer 在预测性能和计算效率方面具有优势。
RGNet 方法通过统一的跨模态 RG-Encoder 和稀疏采样技术,实现了对长视频中特定时刻的定位,超越了以往技术。研究中提出了 Deep Semantic Clustering Network 和 VLG-Net 等新方法,均在多个数据集上展示了优越性能,有效解决了视频时间定位的挑战。
本文提出了一种结合文本和音频条件的3D-VQGAN和transformers生成长视频的方法,强调多文本条件在视频生成中的重要性。新模型注重视觉一致性和动态噪声处理,实验结果显示其在语义一致性和时间连续性方面表现优异,拓宽了视频生成和编辑的能力。
本文介绍了在第四届野外情感行为分析竞赛中提出的多任务学习方法,利用深度模型提取情感特征,显著提高了情感分类和评估的准确性。研究表明,基于Transformer的架构和EfficientNet模型在实时视频情感分析中表现优异,尤其在多模态特征提取和情感反应强度评估方面超越了基线方法。
我们开发了一种创新的双路径耦合去雨网络(DPCNet),通过SFEBlock和FFEBlock在空间和频率域中整合信息,并引入了AFM进行双通路径特征聚合。该方法在六个公共去雨基准和下游视觉任务上进行了实验证明,超越了现有的最先进去雨方法,具有鲁棒性和视觉效果。
本文介绍了一种基于transformer-based网络的新框架,用于从EEG信号中获取注意状态。该网络经过训练和验证,在两个公共数据集上表现出比现有模型更好的效果。该框架可应用于评估注意力缺陷多动障碍(ADHD)症状或驾驶评估中的警觉度。
EmMixformer是一种混合Transformer,用于提取眼动识别的时域和频域信息,提高识别准确性。实验结果表明,EmMixformer在眼动数据集和两个公共眼动数据集上的性能优于现有技术。
该研究提出了一种新方法,使用双条件生成对抗网络和改进的Pix2Pix架构来生成期望时间戳处的SAR数据。该方法还使用了注意力机制,提高了模型性能。研究为光学数据在SAR领域和时间分析中的应用提供了可能性,并提供了代码和数据资源。
完成下面两步后,将自动完成登录并继续当前操作。