EMNLP 2024 | 突破RQ-SID“沙漏“瓶颈,提高生成式搜推上限
该方法在选择性移除不太重要的tokens的同时,保留了最有信息量的tokens,即使在移除大量数据的情况下,也能提升模型性能。解决沙漏现象的方法有多种,在此简单的从分布角度提出两种简单易行的方法:一种启发式的方法是直接移除第二层,从而消除长尾效应的影响。需要注意的是,这里首先要生成一个L层的语义ID(SID),然后再移除第二层,这与直接生成一个两层的SID不同,因为后者可能仍然存在大的路由节...
该方法在选择性移除不太重要的tokens的同时,保留了最有信息量的tokens,即使在移除大量数据的情况下,也能提升模型性能。解决沙漏现象的方法有多种,在此简单的从分布角度提出两种简单易行的方法:一种启发式的方法是直接移除第二层,从而消除长尾效应的影响。需要注意的是,这里首先要生成一个L层的语义ID(SID),然后再移除第二层,这与直接生成一个两层的SID不同,因为后者可能仍然存在大的路由节...