小红花·文摘

菲尔兹奖得主都看懵了：OpenAI非数学模型首次自主突破80年未解数学难题

量子位 ·

字节推出的Seed Prover 1.5模型在IMO中获得金牌，成功解决前五道题目。该模型结合大规模强化学习与新形式化推理方法，显著提升了解题效率，并通过草稿和多工具交互更有效地处理复杂数学问题。

字节Seed发布最强数学模型：一招“打草稿”，IMO银牌变金牌

量子位 ·

DeepSeek推出的Prover-V2模型专注于数学定理证明，刷新多项基准测试记录。该7B模型成功解决了671B模型未能解决的问题，展现出独特的推理模式。Prover-V2结合强化学习与子目标分解，提升了形式化与非形式化证明的能力，标志着数学领域的重要进展。

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

量子位 ·

健康价值的数学模型

DEV Community ·

本研究提出了一种新的理论框架，利用数学模型p-Conv有效识别自然数同余类，揭示神经网络行为的成功与失败模式，为可解释人工智能提供新视角。

Prime Convolution Model: Pioneering New Horizons for Theoretical Interpretability

BriefGPT - AI 论文速递 ·

DeepSeek R1：数学模型在复杂问题解决中以准确性换取速度

DEV Community ·

本研究提出了AceMath数学模型套件，结合有效的奖励模型，通过监督微调显著提升数学问题解决能力，并建立了AceMath-RewardBench基准，最终在数学推理上取得最佳表现。

AceMath: Advancing Frontier Mathematical Reasoning through Post-Training and Reward Modeling

BriefGPT - AI 论文速递 ·

本研究探讨了在代码混合对话中提取信息的挑战，特别是罗马字母化的孟加拉语与英语的混合。通过开发自动识别机制，显著提升了多语言和非正式文本环境中的信息检索效果。

RetrieveGPT：融合提示和数学模型以增强代码混合信息检索

BriefGPT - AI 论文速递 ·

Qwen2.5-Math: 世界领先的数学开源大语言模型

Blog on Qwen ·

本研究提出Qwen2.5-Math系列数学专用语言模型，采用自我改进方法，提升数学推理能力。通过强化学习，模型能够有效解决多种难度的数学问题，推动数学教育与研究的进步。

Qwen2.5-Math Technical Report: Advancing Toward a Mathematical Expert Model via Self-Improvement

BriefGPT - AI 论文速递 ·

滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了MMLU-Pro数据集，用于评估大语言模型的能力。该数据集包含来自多个来源的问题，旨在更严格地测试大型语言模型的功能。该数据集已在hyper.ai提供下载。

MMLU-Pro 基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署

HyperAI超神经 ·

MMLU-Pro基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署...

HyperAI超神经 ·

Qwen2-Math，新一代数学模型

Blog on Qwen ·

本文探讨了基于神经网络的人工智能系统的仪表盘设计，强调用户建模和个性化服务的重要性。研究分析了用户在任务中的心理状态，并提出通过概率模型推断用户知识以提升交互性能。此外，文章讨论了人工智能在决策支持中的应用，倡导以人为中心的可解释性设计，以改善人机交互方式。

人工智能与用户相互塑造的会计学：数学模型的作用

BriefGPT - AI 论文速递 ·

该研究引入了一种新的评估范式来评估大型语言模型的认知能力，解决了现有基准测试中的关键缺陷，并能够有效区分模型之间的能力差异。研究结果显示，GPT-4的性能比GPT3-5高十倍，揭示了数学模型的训练和评估方法的根本缺陷。研究呼吁在评估语言模型时进行范式转变，并对人工通用智能的讨论做出了贡献。通过推广类似的评估方法，旨在更准确地评估语言模型的认知能力。

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

BriefGPT - AI 论文速递 ·

本论文提出了一种新颖的端到端网络，用于生成未来肿瘤掩模和不同治疗计划下肿瘤在任何未来时间点的真实磁共振成像。该模型基于扩散概率模型和深度分割神经网络，通过使用多参数MRI和治疗信息作为条件输入，指导生成扩散过程，以估算给定时间点的肿瘤成长。通过使用真实的手术后纵向MRI数据进行训练，验证了该模型在生成合成MRI、肿瘤分割和不确定性估计等任务中的优异性能。该模型的肿瘤成长预测能够为临床决策提供有用的信息。

个性化预测脑胶质母细胞瘤浸润：数学模型、物理启发神经网络和多模式扫描

BriefGPT - AI 论文速递 ·

本文介绍了微信红包的数学模型和抢红包的算法。指出红包的总金额和参与人数决定了最大金额，而抢红包的顺序决定了运气。建议在其他人抢完后再进行抢夺。

速看！！教你如何抢红包

京东科技开发者 ·

菲尔兹奖得主都看懵了：OpenAI非数学模型首次自主突破80年未解数学难题

字节Seed发布最强数学模型：一招“打草稿”，IMO银牌变金牌

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

“安全”客观价值的数学模型：通过可预测性谈可持续性

健康价值的数学模型

Prime Convolution Model: Pioneering New Horizons for Theoretical Interpretability

DeepSeek R1：数学模型在复杂问题解决中以准确性换取速度

AceMath: Advancing Frontier Mathematical Reasoning through Post-Training and Reward Modeling

RetrieveGPT：融合提示和数学模型以增强代码混合信息检索

不锈钢连续退火炉数学模型的复现

Qwen2.5-Math: 世界领先的数学开源大语言模型

Qwen2.5-Math Technical Report: Advancing Toward a Mathematical Expert Model via Self-Improvement

MMLU-Pro 基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署

MMLU-Pro基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署...

通义千问开源Qwen2-Math，成为最先进的数学专项模型

Qwen2-Math，新一代数学模型

人工智能与用户相互塑造的会计学：数学模型的作用

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

个性化预测脑胶质母细胞瘤浸润：数学模型、物理启发神经网络和多模式扫描

速看！！教你如何抢红包