研究表明,古典语言如文言文和拉丁语能够绕过主流大模型的安全机制,导致100%成功输出有害内容。这是由于训练数据不平衡和古典语言缺乏安全对齐。此现象提醒AI行业重视多语言安全,重建评估体系,提升跨语言安全能力。
本文介绍了CBGBench,一个针对结构基药物设计(SBDD)的综合基准,旨在统一任务定义、支持多种药物设计任务,并提供全面评估体系。研究表明,基于密度图的卷积神经网络和Diffusion方法在性能上表现优越。CBGBench希望通过标准化和模块化促进SBDD领域的研究与发展。
华为云与中国信通院等机构合作推出国际上首个代码大模型的标准项目,旨在建立客观公平的评估体系,推动全球对代码大模型的认同和规范化应用。华为云在智能化软件工程领域持续研究,推出了更强大的代码大模型和智能编程助手CodeArts Snap。华为将继续与产业伙伴合作,推进代码大模型的发展。
本文研究了自动文摘评估指标的可靠性,提出了改进现有评估体系的方法,包括评估指标使用的方法与实际评估系统的方式不一致,以及通过计算小得分差距的系统之间的相关性来计算相关性。研究结果表明,收集更多高质量的人类判断和改进自动评估指标是必要的。
本文研究了不同的数据生成方法,并使用统一的评估体系评估了预训练模型在多个任务中的表现。提出了一种新的基于球谐函数的3D场景生成方法,性能超越以往方法,与使用真实世界扫描和CAD模型的方法相当。
完成下面两步后,将自动完成登录并继续当前操作。