本研究提出了新的基准KnowRecall和VisRecall,用于评估多模态大语言模型在不同语言间的一致性。KnowRecall关注全球地标的文化和历史知识一致性,VisRecall检验视觉记忆一致性。实验结果显示,现有模型在跨语言一致性方面仍存在困难,需要开发更具多语言和文化意识的模型。
本研究探讨大型语言模型在生成多语言响应时的文化知识差异。提供文化上下文可提升模型的本地化能力,并发现可跨非英语语言使用的文化定制向量,从而增强多样性并减少刻板印象。
该论文评估了大型语言模型(LLMs)在多语言和多模态任务中的表现,发现现有模型在复杂问题上的准确率普遍低于50%,尤其在文化知识和跨语言理解方面有显著改进空间。新提出的评估工具和数据集旨在推动模型的发展和研究。
本研究提出了CROPE,一个新的视觉问答基准,用于评估视觉和语言模型在文化知识和适应能力方面的表现。研究发现,现有模型在处理多模态信息和文化概念上有困难,显示了其在文化理解上的局限性。
该研究评估了大型语言模型(LLMs)在文化知识和多样性方面的表现,特别关注长尾文化概念和低资源语言。通过建立多元文化数据集,发现GPT-3.5和GPT-4在文化理解上存在显著差异,且LLMs的表现受不同文化背景的影响。研究提出了新的评估标准和框架,以促进文化敏感的语言模型开发。
本文综述了文档级机器翻译的研究,比较了不同方法的表现,发现基于单语文档的回译方法效果显著。同时,提出了古汉语与现代汉语的对齐方法,创建了大规模双语语料库,并探讨了文化知识在机器翻译中的应用,提出了新的数据筛选和提示策略,显著提升了翻译质量。
本研究探讨了如何将文化知识融入大型语言模型(LLMs)的机器翻译中,提出了新的数据筛选和提示策略,构建文化相关的平行语料库。实验结果表明,CultureLLM在文化特定翻译上优于传统系统,并在多语言能力和文化适应性方面表现出色,强调了改进LLMs以应对文化差异的重要性。
本文探讨了通过多元文化数据集(如CultureAtlas和CulturaX)提升语言模型在文化背景下的表现。研究表明,加入文化信息能显著提高模型性能,并提出了MANGO和CANDLE等方法来提取和整合文化知识。CultureLLM模型在多文化数据集上表现优异,提供了有效的增强方案。
本文探讨了利用自动生成的敌对评估数据集来测试大型语言模型的安全性,并提出了AI辅助的数据生成方法,以提升数据质量和概念覆盖。同时,研究涉及文化知识在机器翻译中的应用,强调文化偏见的审核和缓解策略。通过案例研究,展示了大型语言模型在社会科学领域的定性分析能力,强调研究者的专业知识与技能的重要性。
该研究探讨了机器学习在道德和伦理判断中的应用,特别是BERT模型的有效性。通过分析社交媒体文本,微调后的模型在道德分类任务中显著提高了性能。研究还提出结合文本特征和外部知识库的方法,以更准确地检测道德价值表达,并探讨文化知识在道德推断中的重要性。
完成下面两步后,将自动完成登录并继续当前操作。