小红花·文摘 - 小红花技术领袖俱乐部

利用LLM嵌入进行文本数据的7个高级特征工程技巧

利用LLM嵌入进行文本数据的7个高级特征工程技巧

MachineLearningMastery.com ·

本研究提出了一种任务指导的反课程学习方案，通过调整掩码比例和选择掩盖词汇，改善掩码语言模型的训练过程。结果表明，该方法在情感分析、主题分类和作者归属等任务中显著提升了模型性能。

Task-Informed Anti-Curriculum Masking Techniques Improve Downstream Performance on Text

BriefGPT - AI 论文速递 ·

该研究提出了一种标签降噪器，通过多种易于提供的规则作为多种弱监督源，学习神经文本分类器的问题。该模型在情感、主题和关系分类的五个基准测试上进行了评估，结果表明，即使没有任何标注数据，该模型也可以达到与全监督方法相当的性能水平。

利用弱监督生成印尼保护数据集

BriefGPT - AI 论文速递 ·

本文介绍了一个新的公共基准，用于针对柯尔克孜语进行主题分类。作者使用来自24.KG新闻网站的数据集进行训练和评估，并提出了多标记设置下的几个基准模型。文章讨论了结果和未来工作的方向。

基于多标签的吉尔吉斯语主题分类评估

BriefGPT - AI 论文速递 ·