语言模型对齐中的引导限制

本文研究了引导向量作为对齐机制的局限性，尤其是在复杂场景中的应用效果。我们提出了一种框架，通过变压器钩干预和反义词功能向量评估提示结构和上下文复杂性对引导效果的影响。研究结果表明，引导向量在特定对齐任务中表现良好，但在通用对齐时可能不够稳健。