小红花·文摘 - 小红花技术领袖俱乐部

本文研究了基于预训练语言模型的文本分类任务在主题分布变化时的性能差距，并验证了经典PLMs和现代大模型都面临领域转移的挑战。通过增加主题控制的合成文本，F1得分在某些主题上提高了50％，但其他主题则没有改进。该方法适用于其他分类任务。

BERT 走出题材范畴：通过类型分类研究领域转换挑战

BriefGPT - AI 论文速递 ·

使用随机分隔符能够接近最先进性能，挑战了有效提示应该是可读或与任务相关的假设。实验结果显示，在九个文本分类任务中，使用随机分隔符相较于人工策划的分隔符平均相对改进了16％。

随机抽样的启发式优化

BriefGPT - AI 论文速递 ·

本文介绍了一种用于测量基于Transformer的文本嵌入分布的统计深度方法TTE depth，并在自然语言处理流程中引入了该深度的实际应用。研究使用TTE depth对上下文学习提示选择任务进行了实验，展示了该方法相对于统计基准方法在六个文本分类任务上可靠提升性能的结果。最后，研究使用TTE depth及其相关的秩和检验特征了合成和人工生成语料库的分布，显示出五种最近的合成数据增强过程导致与相关的人工生成文本发生可测量的分布偏移。

基于统计的深度学习算法对 Transformer 文本嵌入进行排名和表征

BriefGPT - AI 论文速递 ·