本研究旨在解决当前强化学习中符号系统与神经网络系统分离的问题。提出的BlendRL框架通过结合逻辑与神经策略,增强了智能体的灵活反应能力与可解释性。实验证明,BlendRL智能体在标准Atari环境中超过了传统的神经和符号基线,同时对环境变化表现出更强的鲁棒性。
多智能体强化学习在共享资源优化中有潜力,但存在可解释性和样本效率问题。为此,提出事件驱动公式,结合神经符号方法进行决策。开发了概率逻辑神经网络(PLNN),融合逻辑推理与概率图模型,解决不确定性和部分可观察性问题,并在片上系统功率共享中验证。