强化学习在网络事件响应中高效有效的恶意软件调查中的应用
原文中文,约200字,阅读约需1分钟。发表于: 。通过强化学习方法,提出了一个高级马尔代夫后置事件恶意软件取证调查模型和框架,实现了后置事件取证的加速,通过 Q 表和时间差学习迭代地改进恶意软件调查模型,实验结果表明该方法相比人工专家能够更快速地识别和分类恶意软件,且具备适应新型恶意软件威胁的能力,对于复杂环境,可采用自适应策略和超参数调优。
提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。