本研究提出了一种基于示例的解释技术(EBE-DNN),解决了现有方法仅适用于少数模型的问题。EBE-DNN能够通过少量示例提供高效的示例归因,并保持与原始模型的准确度一致,嵌入层的选择对准确度有显著影响。
本研究提出了一种Top-Theta注意力方法,通过补偿阈值有效剪枝不重要的注意力元素,从而降低变压器模型的计算复杂性。在生成解码阶段,该方法将V缓存行数减少了3倍,在预填充阶段则降低了10倍的注意力元素数量,同时保持了模型的准确度。
完成下面两步后,将自动完成登录并继续当前操作。