本研究探讨了计算社会科学中的噪声问题,分析了OCR错误、古老语言和主观任务注释不一致等多种噪声形式。研究指出某些噪声可能蕴含有价值的信息,并强调处理噪声时的细微差别及研究者所需的策略。
通过研究不同方法改进低资源和古老语言机器翻译,开发了一种基于语言相关性的多语言神经机器翻译模型,平均性能提高了约4个BLEU。尝试使用NLLB-200和GPT-3.5模型进行微调和少量样本翻译,但性能较差。研究为低资源和古老语言机器翻译的方法提供了一些见解。
完成下面两步后,将自动完成登录并继续当前操作。