BriefGPT - AI 论文速递 ·

Small Language Models Learning to Reason via Self-Iterative Process Feedback

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究提出了一种通过自我迭代反馈学习提升小型语言模型（SLMs）推理能力的方法。采用几率比优化和过程监督奖励，使SLMs利用自身生成的信号进行微调。实验结果表明，该方法显著提高了Gemma-2B在多个任务上的表现。

🎯

🏷️

当前Hugging Face上最佳的小型语言模型！
小型语言模型的性能显著提升，4亿参数的模型在推理基准测试中超越了30亿以上的模型。优秀的小型模型如阿里巴巴的Qwen3.5-4B和微软的Phi-4-min...
Assembly 推出首个用于联络中心劳动力管理的 MCP 服务器
2025年5月21日，统一的 WFM 和 AI 代理平台 Assembled 发布了 Assembled MCP，这是一个“自带模型”服务器，允许用户在分...
从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源
今天，美团龙猫LongCat在官微宣布正式开源 LongCat-Video-Avatar 1.5，作为一款从开源 SOTA 迈向商业级应用的数字人视频模型...
Ross Video将投资1.225亿加元扩大生产制造和研发规模
Ross Video 公司宣布，将投资 1.225 亿加元（9000 万美元）扩大其在渥太华和伊罗魁市的工厂的生产和研发能力，并在未来几年内创造 125 ...
得益于云计算和人工智能的蓬勃发展，Amagi 实现了盈利，增长了 30%
为全球媒体和娱乐公司提供人工智能解决方案的云原生 SaaS 平台 Amagi Media Labs公布了其 2026 财年第四季度和截至 2026 年 3...
研究：数字娱乐日益互联互通
随着全球娱乐市场趋于稳定，Futuresource Consulting 的《与数字共存》研究发现，市场正在从平台竞争转向更加互联的内容生态系统。该研究...