小红花·文摘

vivo与香港科技大学联合提出的PreSelect方法是一种高效的数据筛选技术，通过计算数据的预测强度来评估其对模型能力的贡献。该方法显著降低了计算成本，提升了数据筛选的效率和质量，实验结果表明其在多项任务中优于传统方法，验证了其有效性。

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

量子位 ·

本研究探讨了低资源语言（如马拉地语）在自然语言处理中的挑战，比较了上下文BERT、非上下文BERT和FastText的嵌入技术，结果显示上下文嵌入的性能最佳，为低资源语言处理提供了新思路。

BERT or FastText? A Comparative Analysis of Contextual and Non-Contextual Embeddings

BriefGPT - AI 论文速递 ·

FastText是一种基于子词嵌入的词嵌入技术，能够捕获形态相关单词的语义，对处理形态丰富的语言和词汇外单词有优势。它能够降维、编码语义相似性、捕获上下文信息、泛化到未见过的单词、作为特征表示、高效训练和迁移学习。与传统词嵌入技术相比，FastText利用字符级信息、扩展Word2Vec模型和提供字符n-gram嵌入来解决传统词嵌入的局限性。FastText的工作原理是通过对字符n-gram和单词本身的嵌入进行平均来计算单词的嵌入。FastText的代码实现使用Gensim库训练模型并查找单词嵌入和相似单词。FastText和Word2Vec都是流行的词嵌入工具，但FastText擅长处理稀有单词和形态复杂的语言。FastText能够处理未知单词，并与Word2Vec的区别在于对词汇的处理。FastText适用于英语以外的语言，特别适用于形态丰富的语言。

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

BERT or FastText? A Comparative Analysis of Contextual and Non-Contextual Embeddings

使用 FastText 实现词嵌入

高效融合词嵌入和深度学习技术用于抗癌肽分类：FastText+BiLSTM

欢迎 fastText 加入 Hugging Face Hub