小红花·文摘

OMGEval是第一个能评估LLMs在不同语言中能力的开源测试集，包括中文、俄语、法语、西班牙语和阿拉伯语。OMGEval提供了804个问题，通过GPT-4作为仲裁者，证明OMGEval与人工评估密切相关，为研究共同体进一步理解和改进LLMs的多语言能力提供参考。

BriefGPT - AI 论文速递 ·

本文研究了对现代大型语言模型（LLMs）在编码任务中的对抗性示例攻击的影响，并提出了基于提示的防御措施，实验证明对抗性示例具有可转移性，削弱了LLMs的性能，提出的防御措施显示出改善模型韧性的潜力。

BriefGPT - AI 论文速递 ·

BriefGPT - AI 论文速递 ·