小红花·文摘

Breeze 2研究填补了传统中文语言模型在多模态表达和功能调用方面的不足，提出了增强理解能力的新方法，表现优异，具有广泛的应用潜力。

基于Llama的传统中文大语言模型Breeze 2群体：具备视觉感知和功能调用能力

BriefGPT - AI 论文速递 ·

本文介绍了在Android手机上运行AI大模型的方法，包括英文和中文语言模型。文章提供了两种不需要解锁手机和获取Root权限的方案，并介绍了模型应用程序和运行设备的准备工作。作者推荐使用骁龙8 Gen 2和8 Gen 3芯片的手机来运行模型。此外，还介绍了安卓调试工具（ADB）的安装和使用方法。文章还提供了英文和中文语言模型的使用示例，并介绍了图片模型的下载和初始化方法。下一篇文章将介绍在手机原生环境中直接运行模型的方法。

使用搭载骁龙 8 Gen 3 的安卓手机运行 AI 大模型

苏洋博客 ·

介绍了SC-Math6基准数据集，用于评估中文语言模型的数学推理能力。数据集包含2000多个多步推理的数学问题和自然语言解决方案。实验结果显示，GPT-4等顶级模型在推理能力上表现出优异性能。SC-Math6填补了中文数学推理基准的空白，提供了全面的测试平台。

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

BriefGPT - AI 论文速递 ·

研究人员引入了中文基准CharacterEval，用于评估角色扮演对话智能体。该基准包含1,785个多轮对话，涵盖23,020个示例和77个角色。CharacterEval采用多方面的评估方法，显示中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。

CharacterEval: 一个用于角色扮演式对话代理评估的中文基准

BriefGPT - AI 论文速递 ·