Cloud Native Glossary是一个旨在用简单语言定义云原生概念的项目,现已推出越南语版本。该项目通过社区贡献,帮助越南开发者克服语言障碍,促进技术学习与应用,提升当地IT人才竞争力。团队在翻译过程中面临术语标准化等挑战,确保翻译准确自然。
本研究解决了在训练数据不足的情况下,神经网络在机器翻译中的表现不佳的问题。通过利用多语言预训练语言模型(mBART)和越南语、汉语的单语语料库,提出了一种有效的机器翻译方法,最终显示出与变换模型相比,性能提升了8%。
本研究针对越南语-汉语和越南语-老挝语的机器翻译评估,结合自动指标与专家评审,提出了全面的评估方法,为翻译模型的改进提供依据。
本文针对越南语情感分析模型性能不足的问题,提出了一种新方法,将PhoBERT-V2模型与SentiWordNet相结合。研究表明,该模型在2016 VLSP和2019 AIVIVN数据集上的实验结果优于其他模型,展现了其在越南语情感分析领域的显著潜力。
本研究提出了一种新的联合模型,结合上下文化语言模型与神经网络,针对越南语自然语言推断(NLI)进行研究,F1得分最高达到82.78%。
本研究针对大型语言模型(LLMs)在越南语这一低资源语言中自动数据生成的不足开展探索,针对事实检验数据的生成,提出了一种新的自动数据构建方法,旨在评估LLMs的信息综合能力。研究结果显示,尽管通过微调技术生成的数据质量显著提高,但LLMs生成的数据质量仍无法与人类相媲美。
本研究提出了一种结合统计与语义特征的越南语可读性评估新方法,显著提升了分类准确性,为后续研究奠定基础。
本研究提出了一种新颖的框架,将抽取式和生成式摘要技术相结合,解决了越南语多文档摘要中的有效方法缺乏的问题。实验结果显示该框架在VN-MDS数据集上取得了39.6%的ROUGE-2评分,超越了现有的先进基线。
本研究介绍了ViLLM-Eval,一个用于评估基础模型的套件,通过多项选择题和预测下一个单词的任务评估了大语言模型在ViLLM-Eval上的表现。发现这些模型在理解和应对越南语任务方面有待改进。该套件将有助于发现模型的优势和劣势,并提升在越南用户中的性能。
中国首个大规模NLI数据集由语言学专家注释,通过中文预训练模型测试,发现模型性能落后于人类。该数据集有望加速中文NLU的进展。
ViLLM-Eval是一个用于评估越南语基础模型的套件,通过多项选择题和预测下一个单词的任务揭示了大语言模型在理解和应对越南语任务方面的不足。该套件有助于发现模型的优势和劣势,提升在越南用户中的性能。
ViNewsQA是一个用于评估医疗领域阅读理解模型的越南语语料库,包含22057个问题-答案对。ALBERT模型在该语料库上表现最佳。
VinaLLaMA是一个在越南语上训练的大型语言模型,具有深刻的越南文化理解。它在多个基准测试中取得了最先进的结果,为越南人工智能领域带来了重大进步。
本文介绍了一种新的越南语预训练单语言模型ViDeBERTa,使用DeBERTa架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
该研究评估了大型语言模型在零样本、一次样本和少样本设置下执行多项选择符号绑定 (MCSB) 以解决多项选择问题回答 (MCQA) 任务的能力,并在越南语 MCSB 能力上展示了有希望的结果。研究提供了结构化的 LaTeX 公式指南,创建了一个新颖和高质量的数据集,用于评估大型语言模型和较小语言模型的 MCSB 能力。
该研究使用合成数据生成方法解决在线仇恨言论检测中数据不足的问题,并提供了三种方法来生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本。结果表明使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好。
完成下面两步后,将自动完成登录并继续当前操作。