本研究分析大型语言模型在生成回答时对巴西葡萄牙语方言的偏见,检验其是否遵循社会语言学规则,并提供实现公平自然语言处理的见解。
该研究提出了一种多语言神经机器翻译模型,通过在输入句子开头添加标记来指定目标语言,保持模型框架不变。实验结果显示,该方法在翻译质量上优于传统统计系统,尤其在相似语言之间的翻译效果显著提升。此外,研究探讨了针对巴西葡萄牙语的语言模型评估和预训练方法,推动了葡萄牙语神经处理的发展。所有模型和数据集均可用于研究和商业用途。
本文介绍了一个用于识别巴西葡萄牙语社交媒体有毒言论的新数据集,使用BERT模型取得76%的宏平均-F1分数。研究强调了多语言模型在社交媒体文本中检测仇恨言论的有效性,并提出了新的多语言数据集MultiClaim和X-CLAIM,展示了在低资源语言上训练的优势。研究还比较了调整模型与极大语言模型在可信度主张检测中的表现,结果显示调整模型在跨域设置中优于零样本方法。
该论文介绍了uRAG框架,旨在为多个检索增强生成(RAG)系统提供统一的检索引擎。研究了RAG系统的评估和优化方法,提出了在巴西葡萄牙语中实施RAG模型的最佳实践,并探讨了RAG在大型语言模型中的应用与挑战。总结了RAG的评估方法和未来研究方向。
本文研究了大型语言模型(如GPT-3.5和GPT-4)在巴西葡萄牙语中的语法错误纠正效果,并与Microsoft Word和Google Docs进行了比较。结果显示,尽管ChatGPT在自动评估中表现较弱,但在人工评估中展现出较强的修改能力,尤其在低资源语言的应用中具有潜力。
该研究开发了用于巴西葡萄牙语的图像标题模型,采用了GRIT模型和Transformer生成更好的标题。通过调整GRIT模型在巴西葡萄牙语数据集上进行训练。
该论文提出了一种基于机器学习的方法,用于检测巴西葡萄牙语伪新闻,并开发了一个名为 FAKENEWSBR.COM 的网络平台。实证分析和比较研究表明,该方法对抗伪新闻传播和促进更加明智的媒体消费具有潜力。
完成下面两步后,将自动完成登录并继续当前操作。