小红花·文摘

本研究探讨了大型语言模型在波斯语文化适应性评估中的不足。通过引入PerCul数据集，采用故事驱动的多项选择题，旨在提高模型的文化敏感性。实验结果显示，现有模型与用户基准之间存在11.3%的差距，最佳模型的差距达到21.3%。

BriefGPT - AI 论文速递 ·

本研究提出了新的基准SafeWorld，以解决大型语言模型在不同文化和法律标准下的安全性评估问题。结果表明，现有模型在文化敏感性和法律合规性方面存在困难，而SafeWorldLM表现优异，显示其在全球安全标准对齐中的潜力。

BriefGPT - AI 论文速递 ·

本研究提出CASA基准，以评估大型语言模型在在线购物和社交讨论中的文化敏感性。结果表明，现有模型的文化意识覆盖率不足10%，需通过提示和微调方法提升其文化适应能力。

BriefGPT - AI 论文速递 ·

本文综述了大语言模型（LLMs）的评估方法，探讨了其在多语言和文化环境中的应用及挑战。研究强调文化考量的重要性，并提出新的评估基准CDEval，以提升模型的文化敏感性。通过对泰语及其他语言的评估，发现现有模型在多语言环境中的表现存在显著差距，呼吁改进评估机制以促进LLMs的实际应用和发展。

BriefGPT - AI 论文速递 ·

本文回顾了视觉-语言模型（VLMs）的应用，探讨了其在文化偏见、训练方法和评估中的表现。研究发现，VLMs在处理文化特定图像时存在西方偏见，并提出了文化意识分数（CAS）作为新评估指标。通过创建适应不同文化的数据集，旨在提高AI系统的文化敏感性，促进全球多样性。

BriefGPT - AI 论文速递 ·

本文介绍了一种利用赫尔辛基变压器在自我抓取的纯文学阿拉伯语数据集上进行微调的先进英 - 阿拉伯语翻译器。该翻译器在文化敏感性和语境准确性方面表现出色，优于谷歌翻译。研究强调了赫尔辛基变压器在使用文学阿拉伯语数据集时在英 - 阿语翻译方面的优越性。

BriefGPT - AI 论文速递 ·

Adobe Blog ·