本文介绍了在Mac上安装和使用TensorFlow-Metal的步骤,包括对Apple硅或AMD GPU的要求,以及macOS 12.0和Python 3.9的版本要求。用户需安装Xcode命令行工具,并检查TensorFlow和TensorFlow-Metal的安装情况,最后可在Jupyter Notebook中进行开发。
本研究解决了印尼语和英语代码切换的多语言语音合成问题,这是印尼的一个常见现象。通过引入基于微调BERT的逐词语言识别组件,该研究显著提高了语音合成的自然性和可懂度。实验结果表明,该代码切换模型在自然性和语音可懂度上优于基线模型。
本研究探讨了XLM-R预训练模型在英语到日语和印尼语的跨语言迁移学习中的适用性。结果表明,该模型在日语数据集上表现最佳,并在其他数据集上也取得了良好效果,验证了多语言模型的有效性。
印尼推出Sahabat-AI,这是一个基于NVIDIA技术的开源大型语言模型,旨在服务2.77亿印尼语用户。该项目通过公私合作,促进数字主权和包容性,支持各行业的AI应用开发。
本文探讨了语法纠错(GEC)模型的跨语料库评估,指出单一语料库评估的不足。研究评估了多种GEC模型,提出了新基准CWEB和cLang-8数据集,强调大型语言模型在GEC中的优越表现,并探讨了评估方法的改进。
本文探讨了利用资源丰富语言的相似性来改善低资源语言的机器翻译,评估了印尼语和西班牙语的翻译质量。研究介绍了FLoRes和FLORES-101评估数据集,分析了多语言模型在低资源语言翻译中的效果,并提出了数据增强策略以提高翻译质量。
本文介绍了多种自然语言推理(NLI)数据集的创建与分析,包括印尼语和中文的首个大规模数据集。研究显示,模型在这些数据集上的表现仍低于人类水平,强调了数据集的挑战性和重要性。同时,采用对抗性训练方法可以有效降低推理中的偏见,推动自然语言处理的发展。
本文介绍了多语言任务导向对话(ToD)数据集的现状和限制,并推出了一个创新的多语言、多领域、多平行 ToD 数据集 Multi3WOZ,以便训练和评估多语言和跨语言的 ToD 系统。该数据集具有大规模、文化适应性强等特点,并提供了不同 ToD 相关任务的基准分数。
COPAL-ID是一个公开可用的印度尼西亚语常识推理数据集,结合了印度尼西亚的当地文化细微差别,提供了更自然的印度尼西亚文化领域内的日常因果推理描绘。研究发现,目前最好的开源多语言模型在COPAL-ID上表现不佳,与文化无关的XCOPA-ID相比,准确率显著降低,这说明这些语言模型在理解印度尼西亚本土细微差别方面仍然落后于人类。
完成下面两步后,将自动完成登录并继续当前操作。