舶来词是指从其他语言完全或部分吸收的词汇,通常以音译形式出现,如“沙发”、“巧克力”。其词义可能因语言而异,例如法语的“café”在英语中指“小餐馆”。
该研究提出了一种无监督的词义消歧系统TreeMatch,结合特定领域知识库和依赖知识,显著提高了消歧精度,测试结果优于基线。
本研究提出词义链接(WSL)任务,利用变换器架构提升词义消歧(WSD)效果,以改善词汇语义在实际文本中的应用。
本研究提出了一种新方法,通过系统性提示增强机制和意义解释知识库,解决数字通信中的词汇歧义问题,显著提升社交媒体中的词义准确性。
本研究探讨了变压器模型在上下文学习中多概念语义的作用及其与创新能力的关系,提出了一种低噪声稀疏编码提示模型,证明了变压器在复杂训练下的指数收敛性,显示出重要的应用潜力。
本研究评估了多种大型语言模型在瑞典语词义消歧中的表现,结果显示在有训练集的情况下,模型的准确度低于最佳监督系统,但高于无监督系统。此外,人类撰写的词义定义显著提高了模型的准确性。
本文提出了一种新方法,通过评估大型语言模型(LLM)在不同语言中的一致性来检验其理解能力。以ChatGPT为例,发现其在多语言环境中的一致性不足,理解力受所用语言的影响。该方法可推广至其他语言和任务,成为未来评估的重要工具。
该论文研究了自然语言处理中词义消歧的技术,包括深度学习、词汇资源和知识图谱的方法,并引入了词义扩展等新方法。讨论了生物医学消歧和认知隐喻的重要性,指出词义注释语料库稀缺等挑战。未来研究方向包括大型语言模型和多语言词义消歧系统。
大型语言模型在医疗应用中存在偏见,倾向于为白人群体投射更高费用和较长住院时间,并在高生存率医疗场景中表现乐观。未来研究需解决和减轻语言模型偏见问题,确保公平准确结果对所有患者。
EDiSC是DiSC的嵌入版本,结合了词嵌入和DiSC以提供优越的模型性能。它在预测准确性、地面真实恢复和不确定性量化方面表现出色,同时还具有更好的采样效率和可扩展性。
该文章介绍了Alberta大学团队在SemEval-2023视觉词义消歧任务中的系统,使用了BabelNet中的注释、文本和图像编码器的组合算法。与英语编码器应用于翻译文本进行了比较。通过使用语言模型生成的描述来增强上下文,提高了准确性。还介绍了其他V-WSD方法的图像生成和文本条件图像分割,并评估了它们。官方提交结果排名第18,非官方结果更好。
通过本文,我们引入了概念归纳这个非监督任务,从数据中学习一组定义概念的词语软聚类,该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳,充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上评估所得到的聚类,并获得了良好的性能(BCubed F1 大于...
使用语义组合性建模的透明、可解释和语言学动机策略,模拟词的上下文意义编码,并且与复杂神经结构下的黑盒模型相比,显示其与语言学动机模型在给定语义任务中的竞争力。
该文章介绍了Alberta大学团队在SemEval-2023视觉词义消歧任务中的系统,使用了BabelNet中检索到的注释、文本和图像编码器的组合算法。此外,还使用语言模型生成的描述来增强上下文,提高准确性。官方提交结果排名第18,非官方结果更好。
通过大型语言模型研究解决机器翻译中语义歧义的能力,并提出两种改进方法。方法通过上下文学习和在歧义数据集上微调,在五种语言方向中有四种能匹敌或胜过最先进的系统,为机器翻译中的歧义消解提供了见解。
该文介绍了一种无监督的方法来区分名词的意义变化,通过数字化书籍中的时间变化文本数据构建分布式词库网络,将它们分别聚类以获得与不同时间点对应的以词为中心的意义聚类。该方法可应用于词汇编纂和语义搜索,并经过人工评估和WordNet对比,正确识别出60.4%的新出现情况,57%的分裂/合并情况,并有44%的新意义得到WordNet验证。
该研究设计了一种词义消歧系统,使用主题模型,能够在上下文单词数增加的情况下扩展。在5个英语全单词WSD数据集上的评估表明,该方法优于当前最先进的无监督知识为基础的WSD系统。
该研究提出了一种基于RoBERTa的隐喻检测模型ContrastWSD,结合了隐喻识别和词义消歧,通过对比上下文意义和基本含义来确定隐喻使用。该模型利用WSD模型的词义,优于其他方法在基准数据集上的表现。
完成下面两步后,将自动完成登录并继续当前操作。