本文分析了成语中数字词的使用情况,发现约8.2%的四字成语含有数字,且数字的组合和位置存在规律。研究表明,数字“一”的使用频率最高,奇数在成语中更受欢迎,揭示了成语的文化内涵。
保持好奇心,广泛阅读,勇于尝试新事物。
本研究解决了不同提示方法和大型语言模型(LLMs)与神经机器翻译(NMT)组合在成语翻译中的影响尚未深入研究的空白。通过引入包含成语的双语数据集并评估多种模型,研究发现Claude-3.5-Sonnet在翻译中表现出色,而结合较弱的LLMs与谷歌翻译可以改善英语到波斯语的翻译结果,这为未来的翻译系统提供了重要的见解。
成语是中华文化的精髓,源于生动的故事和口耳相传。经过千年的演变,成语有的保持原义,有的意义重组,体现了语言的活力与时代需求。陈舜臣的《弥缝录》探讨了成语的演化过程,强调了成语在历史中的竞争与适应。
研究通过“解释链”方法提升生成语言模型的文本解释准确性,将NLE生成的BLUE成绩从44.0提高到62.3。自动评估和人工评分显示信息和清晰度显著提升。
本文提出了一种采用三元损失、自适应对比学习和重采样挖掘器来建立一个适用于训练语言模型的成语感知的学习目标的方法,用于有效地对成语性进行建模,在 SemEval 挑战赛中获得了显著的性能提升。
通过结合数据增强技术和词汇简化,我们提出了一种名为 RISS(Readability-guided Idiom-aware Sentence Simplification)的新框架,用于解决中文句子简化面临的挑战,包括缺乏大规模标记平行语料库和惯用语的普遍存在。RISS 通过多阶段和多任务学习策略将 RPS 和 IAS...
本研究探讨了大型语言模型 (LLMs) 在习语语言处理方面的应用。我们介绍了由语言专家设计的新的难题数据集 “IdioTS”,用于评估 LLMs 在句子级别处理比喻语言的能力。我们提出了一种基于习语检测任务的综合评估方法,其中 LLMs 被提示在给定的英文句子中检测习语表达。我们对结果进行了全面的自动和手动评估,并进行了广泛的错误分析。
本文研究了大型语言模型和仅编码器模型在处理包含习语的任务时的性能。结果显示,细调为特定任务的模型表现更好,尽管大型语言模型在不同尺度下都具有竞争力的性能。文章还讨论了增加模型规模以提高性能的可行性。
本文介绍了开放事件知识图谱(OEKG),它是一个多语言、事件中心、时间性的知识图谱,由多个数据集组成,包括问答、实体推荐和命名实体识别。OEKG通过与事件中心的知识图EventKG链接,描述了公共模式,并在三个用例中演示了其用法。OEKG及其查询端点是公开可用的。
本研究描述了习语翻译及相关问题,并找到了适合使用习语翻译的临界点。同时,编制了一个包含约4千个自然句子的数据集,并引入了两种简单有效的技术来提高强大预训练机器翻译模型的准确度。
一 《甲方乙方》是中国第一部贺岁片,可以说,凭一己之力,定义了一个电影类型:贺岁片。 这两天忽然想再看看这部1 更多...
拼音猜成语 是我第一款 PV 超过百万的产品,这里就来聊聊它背后的故事。 背景 有一段时间在 Twitter 上经常能看到有推友在发各种颜色的方块,原来是一个叫 Wordle 的英文猜词小游戏,试玩了后发现还挺不错的,轻量、节制还益智。就拉妹子一起来玩,有时还会在零点一起挑战。但非母语也影响了游戏体验,遇到一些生僻的词就只能束手就擒了。某天走在路上就在想,是不是可以做一个成语版的...
我发现用 Nebula Graph 的图查询解 Antfu 的汉兜(最好的中文成语版 wordle 👉🏻 handle.antfu.me)特别有意思,很适合每天写图库语句的体操练习,本文揭示如何用知识图谱作弊解汉兜😁 1 什么是汉兜?汉兜(https://handle.antfu.me)是由 Vue/Vite 核心团队的 Antfu 的又一个非常酷的作品,一个非常精致的汉字版的...
完成下面两步后,将自动完成登录并继续当前操作。