小红花·文摘

本文介绍了一种基于自注意力机制的句子嵌入模型，提升了可解释性并在多个任务中表现优异。研究提出了结合不同机制的新架构，如OTCE和Anthe，以提高性能和降低内存成本。同时，探索了长序列数据中的依赖性，提出了CHELA和SMA机制，解决了注意力复杂性问题，并展示了在多种任务中的有效性。