小红花·文摘 - 小红花技术领袖俱乐部

蚂蚁灵波科技开源了具身大模型LingBot-VLA，提升了机器人在真实场景中的操作能力。该模型实现了跨本体和跨任务的泛化，降低了训练成本，并在多项评测中刷新成功率纪录。LingBot-VLA结合高精度空间感知模型，增强了深度信息处理能力，助力开发者快速适应不同场景，推动具身智能的发展。

蚂蚁灵波开源具身大模型LingBot-VLA，让机器人“看的更清楚做的更明白”

量子位 ·

Ai2使构建自定义编码代理变得更简单、更经济

Ai2使构建自定义编码代理变得更简单、更经济

The New Stack ·

Kimi逆袭，硅谷纸贵

Kimi逆袭，硅谷纸贵

TechWeb 全站精华 ·

DeepSeek-R1之后，Kimi K2 Thinking又给OpenAI们亿点点震撼

DeepSeek-R1之后，Kimi K2 Thinking又给OpenAI们亿点点震撼

TechWeb 全站精华 ·

腾讯推出的无训练组相对策略优化（Training-Free GRPO）方法，仅需120元即可显著提升大模型性能，超越70000元的微调方案。该方法通过动态更新经验知识库，无需调整模型参数，降低训练成本，适用于数学推理和网页搜索等任务。实验结果表明，Training-Free GRPO在多个基准测试中表现优异，具有高性价比和有效性。

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

量子位 ·

从 AI 哪里挣钱？

从 AI 哪里挣钱？

鸟窝 ·

训练成本29.4万美元，DeepSeek-R1登Nature封面，首个通过权威期刊同行评审的主流大模型获好评

训练成本29.4万美元，DeepSeek-R1登Nature封面，首个通过权威期刊同行评审的主流大模型获好评

HyperAI超神经 ·

Sanaka AI提出了一种新方法，使教师模型能够像人类教师一样进行启发式教学，训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率，并显著降低了训练成本。

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

量子位 ·

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

我爱自然语言处理 ·

阿里通义推出PARSCALE新策略，使1.6B模型性能接近4.4B，内存占用仅为1/22，延迟增加1/6。该方法通过并行计算和动态聚合权重，显著提升模型能力，训练成本降低98%。

阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

量子位 ·

本研究提出双头优化（DHO）框架，旨在解决资源有限环境中视觉语言模型（VLMs）的计算复杂性和训练成本问题。DHO通过独立学习标记数据和教师预测，显著提升特征学习效率，并在多个领域和数据集上超越传统基线。

A Simple Semi-Supervised Knowledge Distillation Method via Dual-Head Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种弹性推理框架，解决了大型推理模型在复杂任务中输出长度不受控的问题。该框架将推理过程分为思考和解决两个阶段，独立分配预算，从而提高了在资源紧张情况下的可靠性。实验证明，弹性推理在严格预算下表现优异，训练成本低于基线方法。

Scalable Chain of Thoughts via Elastic Reasoning

BriefGPT - AI 论文速递 ·

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2，以最小的延迟进行实时对话

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2，以最小的延迟进行实时对话

实时互动网 ·

本研究提出了一种新型低比特优化器，利用超低精度量化技术降低训练成本，解决了信号淹没和梯度方差增加的问题，实现显著的内存节省，促进基础研究的可达性。

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics

BriefGPT - AI 论文速递 ·

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

机器之心 ·

该研究提出了一种新的微调迁移方法，旨在提高大型语言模型的更新效率。通过从旧模型转移微调，可以显著提升新模型的性能，减少训练成本。

Efficient Model Development through Fine-tuning Transfer

BriefGPT - AI 论文速递 ·

本研究提出了一种遮罩指导的视频生成方法，旨在降低文本到视频生成模型的训练成本和数据需求。该模型通过前景遮罩和运动轨迹控制，提升了视频生成的一致性和质量，适用于视频编辑和艺术视频生成。

基于动态遮罩指导的视频生成的资源高效运动控制

BriefGPT - AI 论文速递 ·

LightGen模型由港科大与Everlyn AI合作开发，仅需8张GPU训练即可实现接近SOTA的高质量图像生成。通过知识蒸馏和直接偏好优化，显著降低了训练成本与资源需求，展现出在有限条件下生成高效图像的潜力。实验结果表明，LightGen在多个任务上优于现有模型，未来可扩展至其他生成任务。

8张GPU训出近SOTA模型，超低成本图像生成预训练方案开源

量子位 ·

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

机器之心 ·

深度求索公司推出的deepseek-v3和deepseek-r1大语言模型已达到顶级水平，且免费开源。尽管显卡资源需求较少，但训练成本高，普通用户难以部署全尺寸模型，通常只能使用小型蒸馏版本。LM Studio可在本地运行简化模型，适合学习和知识检索。

使用 LM Studio 在本地部署 Deepseek-R1 的蒸馏版大模型

Nicksxs's Blog ·