Llama-Nemotron是一种高效推理模型,通过垂直压缩和FFN融合实现2.5倍速度提升,保持准确性,优化资源效率,适用于推理和数学任务。
DeepThought-8B是基于LLaMA-3.1的8B推理模型,专注于逐步解决问题、编程和数学任务。它需要16GB VRAM,能够将问题分解为多个步骤并输出详细的JSON文档。尽管在推理任务上表现优于同类模型,但在大型模型如GPT-4o面前仍显不足。用户可自定义推理模式,模型可在Hugging Face或Ruliad网站下载。
AIxiv专栏关注大语言模型(LLMs)的数字处理能力,研究显示现有模型在复杂数学任务中表现不足,尤其在数字理解方面。北京大学团队提出NUPA基准集,评估模型在不同数字表示和任务上的表现,发现大模型处理复杂数字的准确率较低。作者探讨了提升数字能力的预训练和微调方法,强调基础能力研究对AGI发展的重要性。
昆仑万维推出国内首款中文逻辑推理o1模型Skywork o1,具备复杂思考和自我验证能力,显著提升推理能力,支持复杂数学任务,包含开源和专用版本,推动开源社区发展。
本研究提出了一种改进的H-DPO方法,解决了大型语言模型训练中直接偏好优化(DPO)无法有效捕捉参考分布模式的问题。实验结果表明,H-DPO在多个任务中优于DPO,尤其在数学任务中表现突出,显示出良好的应用潜力。
通过生成数字分布控制的锚点,提出了一种语义化编码数字的策略,提供数字标记的数学基础表示。通过评估涉及从1到10亿的数字的数学任务,证明了该技术的优越性,并展示了数学基础的显著改进。
完成下面两步后,将自动完成登录并继续当前操作。