小红花·文摘

本研究提出了一种新训练方法MONA，旨在解决未来高级人工智能系统中的多步奖励黑客行为问题。该方法结合短期优化与长期奖励，有效防止复杂的奖励黑客行为，研究表明MONA在多种环境中表现优异。