小红花·文摘

本文探讨了上下文学习中的知识劫持机制，分析了token预测中上下文信息与预训练知识的平衡。研究表明，结合两层变换器的诱导头机制与关联记忆，可以优化ICL的潜力。