该论文提出了一种新算法,通过结合多粒度标记符和预训练标记符,生成高效的n-gram特征,提升特定任务的模型性能,同时保持其他任务的有效性。利用重要性抽样技术,从大规模数据集中选择与目标相似的样本,优化语言模型的预训练过程。
完成下面两步后,将自动完成登录并继续当前操作。