本研究探讨了大语言模型在处理代码混合输入时的不安全输出问题,揭示了导致有害行为的机制,并区分了普遍与文化特定的不安全查询,为理解这一现象提供了新见解。
本研究探讨了大型语言模型(LLMs)在红队测试中的局限性,并提出通过代码混合和语音扰动的新策略。研究表明,利用语音错误拼写的混合提示,成功绕过安全过滤器,文本和图像生成任务的成功率分别为99%和78%,对多语言模型的安全性改进具有重要意义。
本研究提出了COMI-LINGUA,一个大型手动标注的数据集,旨在捕捉印地语与英语代码混合的语言细微差别。通过对100,970个实例的专家评估,揭示了现有多语言建模策略的局限性,并强调了改进代码混合文本处理能力的必要性。
本研究分析了肯尼亚的代码混合数据集,利用推特上的低资源用户生成内容进行情感和情绪检测。结果表明,XLM-R模型在情感和情绪分析中表现最佳,推动了情感识别技术的发展。
本研究探讨了印地语-英语代码混合中的幽默和讽刺检测。通过引入原生样本混合和多任务学习,显著提高了检测精度,尤其是在多任务学习框架下,为代码混合语言处理提供了新视角和应用潜力。
本研究探讨了德拉威语在代码混合情况下的词级语言识别挑战。结果显示,使用GPT-3.5 Turbo模型的Kanna模型在准确性和可靠性上优于Tam文本模型,揭示了不同德拉威语在语言识别中的表现差异。
完成下面两步后,将自动完成登录并继续当前操作。