小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究介绍了ConceptMath,一个用于评估语言模型数学推理能力的双语基准。通过按照数学概念层次组织问题,可以评估不同细粒度的数学推理能力。提出了微调策略以改进模型的弱点。希望ConceptMath能指导开发人员了解模型的数学能力并促进模型发展。

MathCAMPS: 从人类课程中细化合成数学问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

本文介绍了一种新的评估方法,用于评估基于数学误解的大型语言模型(LLM)的数学推理能力。研究发现,LLMs难以识别与特定误解相对应的错误答案,并解释这些误解。这为增强LLMs数学推理能力提供了新机会,尤其在教育应用中开发学生模拟和专家辅导模型方面。

通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

该文章介绍了一种通过微调开源语言模型来增强数学推理能力的方法。作者提出了一个名为MathCodeInstruct的新颖数据集,用于生成包含数学问题和基于代码的解决方案。通过定制的有监督微调和推理方法,生成了MathCoder模型,该模型在数学问题数据集上取得了较高的得分。该模型超过了其他开源方案,并在竞争级别的数学数据集上超过了GPT-4模型。

MuMath-Code:结合多角度数据增强的数学推理工具使用大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文介绍了一种新的数学数据集和协议,提升了数学专用语言模型的性能。已公开模型检查点和数据集,促进进一步研究和发展。

ChatGLM-Math: 使用自我批评流程提高大型语言模型在数学问题求解中的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

该文章介绍了一种通过微调开源语言模型来增强数学推理能力的方法。作者提出了一个名为MathCodeInstruct的数据集,用于生成数学问题和基于代码的解决方案。通过定制的有监督微调和推理方法,生成了MathCoder模型,该模型在数学问题数据集上表现出色。

通过融合高度专业化的语言模型,同时掌握文本、代码和数学

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-13T00:00:00Z

为了评估中文大型语言模型(LLMs)的数学推理能力,研究人员提出了FineMath数据集,涵盖小学数学教学的主要概念,划分为17类数学应用问题,以深入分析LLMs的数学推理能力。实验结果显示,中文LLMs的数学推理能力有待提升。该数据集即将公开发布。

FineMath:面向中文大语言模型的细粒度数学评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

本研究介绍了ConceptMath,一个用于评估语言模型数学推理能力的双语基准。通过按照数学概念层次组织问题,可以评估不同细粒度的数学推理能力。提出了微调策略以改进模型的弱点。希望ConceptMath能指导开发人员了解模型的数学能力并促进模型的发展。

ConceptMath:大型语言模型数学推理的双语概念评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-22T00:00:00Z

介绍了SC-Math6基准数据集,用于评估中文语言模型的数学推理能力。数据集包含2000多个多步推理的数学问题和自然语言解决方案。实验结果显示,GPT-4等顶级模型在推理能力上表现出优异性能。SC-Math6填补了中文数学推理基准的空白,提供了全面的测试平台。

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-22T00:00:00Z

该文章介绍了一种通过微调开源语言模型来增强数学推理能力的方法,并提出了一个新的高质量数据集MathCodeInstruct。MathCoder模型在数学问题解决方案上表现出色,得分远超其他开源方案,并在竞争级别的MATH数据集上超过了GPT-4。

MARIO:用代码解释器输出进行数学推理的再现性管道

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-16T00:00:00Z

MathPile是一个高质量、大规模的数学专注语料库,包含约95亿个标记。通过严谨的数据收集和处理工作,确保了语料库的高质量。MathPile旨在提高语言模型的数学推理能力,并计划开源不同版本以促进该领域的发展。

生成数学 AI:第一部分 --MathPile:一个十亿词级别的数学预训练语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z

该文章介绍了一种通过微调开源语言模型来增强数学推理能力的方法,并提出了一个新的高质量数据集MathCodeInstruct。通过定制的有监督微调和推理方法,生成了MathCoder模型,该模型在数学问题解决方案上表现出色。

Magicoder:只需源代码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-04T00:00:00Z

该研究提出了一种新的评估方法,用于评估大型语言模型(LLM)的数学推理能力。研究发现,LLMs难以识别与特定误解相对应的错误答案和解释特定错误答案的误解。该研究指出了增强LLMs数学推理能力的新机会。

从错误中学习使 LLM 成为更好的推理耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

该研究提出了一种新的数学评估方法,能够识别初学者和专家导师的误解,发现大型语言模型难以识别特定不完整知识的错误答案和误解,为增强大型语言模型数学推理能力提供了新机会。

民主化推理能力:从大型语言模型的个性化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-20T00:00:00Z

该研究提出了一种通过微调开源语言模型来增强其数学推理能力的方法,并介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法。研究人员开发了MathCoder模型,该模型能够生成基于代码的解决方案来解决具有挑战性的数学问题,并在MATH和GSM8K数据集上取得了最新得分,超过了其他开源方案,包括GPT-4。数据集和模型将在指定URL发布。

MathCoder:深化数学推理的 LLMs 中无缝代码集成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码