Cloud Native Glossary是一个旨在用简单语言定义云原生概念的项目,现已推出越南语版本。该项目通过社区贡献,帮助越南开发者克服语言障碍,促进技术学习与应用,提升当地IT人才竞争力。团队在翻译过程中面临术语标准化等挑战,确保翻译准确自然。
本研究解决了在训练数据不足的情况下,神经网络在机器翻译中的表现不佳的问题。通过利用多语言预训练语言模型(mBART)和越南语、汉语的单语语料库,提出了一种有效的机器翻译方法,最终显示出与变换模型相比,性能提升了8%。
本研究针对越南语-汉语和越南语-老挝语的机器翻译评估,结合自动指标与专家评审,提出了全面的评估方法,为翻译模型的改进提供依据。
本文针对越南语情感分析模型性能不足的问题,提出了一种新方法,将PhoBERT-V2模型与SentiWordNet相结合。研究表明,该模型在2016 VLSP和2019 AIVIVN数据集上的实验结果优于其他模型,展现了其在越南语情感分析领域的显著潜力。
本研究提出了一种新的联合模型,结合上下文化语言模型与神经网络,针对越南语自然语言推断(NLI)进行研究,F1得分最高达到82.78%。
本研究针对大型语言模型(LLMs)在越南语这一低资源语言中自动数据生成的不足开展探索,针对事实检验数据的生成,提出了一种新的自动数据构建方法,旨在评估LLMs的信息综合能力。研究结果显示,尽管通过微调技术生成的数据质量显著提高,但LLMs生成的数据质量仍无法与人类相媲美。
本研究提出了一种结合统计和语义特征的新方法来评估越南语的可读性,显著提高了可读性分类的准确性,为越南文本的可读性研究奠定了基础。
本文探讨了自然语言处理(NLP)在越南语序列标记和社交媒体文本分类中的应用,提出了新的模型架构和半监督框架,利用预训练语言模型和数据集,取得了最先进的结果,展示了在数据稀缺场景下的有效性。同时,介绍了越南社交媒体文本的单语言预训练模型ViSoBERT,显著提升了情绪识别和仇恨言论检测的性能。
本研究提出了一种新颖的框架,将抽取式和生成式摘要技术相结合,解决了越南语多文档摘要中的有效方法缺乏的问题。实验结果显示该框架在VN-MDS数据集上取得了39.6%的ROUGE-2评分,超越了现有的先进基线。
本文介绍了越南多语言视觉问答基准数据集EVJVQA及其相关研究,涉及多个模型和方法的开发与评估,如OpenViVQA和BARTPhoBEiT,旨在提升越南语视觉问答系统的性能,推动低资源语言的多模态算法发展。
本文介绍了多种自然语言推理(NLI)数据集的创建与分析,包括印尼语和中文的首个大规模数据集。研究显示,模型在这些数据集上的表现仍低于人类水平,强调了数据集的挑战性和重要性。同时,采用对抗性训练方法可以有效降低推理中的偏见,推动自然语言处理的发展。
本文介绍了多个视觉问答(VQA)相关的数据集和模型,重点关注低资源语言(如越南语)的研究进展。研究提出了多模态融合模型PhoVIT和OpenViVQA数据集,旨在提升越南语VQA系统的性能,促进相关算法的发展。
ViNewsQA是一个用于评估医疗领域阅读理解模型的越南语语料库,包含22057个问题-答案对。ALBERT模型在该语料库上表现最佳。
VinaLLaMA是一个在越南语上训练的大型语言模型,具有深刻的越南文化理解。它在多个基准测试中取得了最先进的结果,为越南人工智能领域带来了重大进步。
本文介绍了一种新的越南语预训练单语言模型ViDeBERTa,使用DeBERTa架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
该研究评估了大型语言模型在零样本、一次样本和少样本设置下执行多项选择符号绑定 (MCSB) 以解决多项选择问题回答 (MCQA) 任务的能力,并在越南语 MCSB 能力上展示了有希望的结果。研究提供了结构化的 LaTeX 公式指南,创建了一个新颖和高质量的数据集,用于评估大型语言模型和较小语言模型的 MCSB 能力。
该研究使用合成数据生成方法解决在线仇恨言论检测中数据不足的问题,并提供了三种方法来生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本。结果表明使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好。
完成下面两步后,将自动完成登录并继续当前操作。