本研究评估了不同文本领域中文档相似性评分的性能,比较了TF-IDF、Word2Vec和BERT嵌入的优缺点。结果显示,TF-IDF依赖于词汇重叠,Word2Vec在跨领域比较中表现优越,而BERT在复杂领域的表现较差,可能是由于缺乏微调。
本研究探讨了在不同文本领域微调模型中,特征的出现、消失和持久化,揭示了特征在迁移学习中的动态变化。
Potsdam教科书语料库(PoTeC)包含75名参与者在阅读科学文本时的眼动数据,旨在研究学习水平、学科和文本领域对阅读理解的影响。该语料库分析专家与新手的阅读策略,并提供多层次标注特征。此外,研究还涉及其他眼动数据集,如CopCo和WebQAmGaze,探讨不同语言的阅读过程及其对自然语言处理模型的影响。
本论文研究了可解释人工智能在文本领域的应用,并提出了SIDU-TXT方法。研究发现,SIDU-TXT在情感分析任务中表现更好,但在法律领域的庇护决策中需要进一步研究适用的XAI方法。
完成下面两步后,将自动完成登录并继续当前操作。