小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

蚂蚁灵波科技开源了具身大模型LingBot-VLA,提升了机器人在真实场景中的操作能力。该模型实现了跨本体和跨任务的泛化,降低了训练成本,并在多项评测中刷新成功率纪录。LingBot-VLA结合高精度空间感知模型,增强了深度信息处理能力,助力开发者快速适应不同场景,推动具身智能的发展。

蚂蚁灵波开源具身大模型LingBot-VLA,让机器人“看的更清楚 做的更明白”

量子位
量子位 · 2026-01-28T02:21:46Z
Ai2使构建自定义编码代理变得更简单、更经济

艾伦人工智能研究所(Ai2)推出了一系列开源编码代理模型,性能优于同类产品。用户可以根据私有代码库进行微调,以提升特定任务的表现。新模型SERA-32B和SERA-8B在解决GitHub问题上表现出色,且训练成本显著低于传统方法。通过创新的软验证生成和多样化训练数据,Ai2旨在让强大的编码代理更易获取。

Ai2使构建自定义编码代理变得更简单、更经济

The New Stack
The New Stack · 2026-01-27T16:00:53Z
Kimi逆袭,硅谷纸贵

月之暗面推出的Kimi K2 Thinking模型以460万美元的训练成本,展现出与顶级AI模型相当的性能,颠覆了传统AI投资观念。中国AI产业通过高效策略和低成本实现快速创新,挑战美国的资本密集型模式,展现出新的竞争优势。

Kimi逆袭,硅谷纸贵

TechWeb 全站精华
TechWeb 全站精华 · 2025-11-13T02:34:04Z
DeepSeek-R1之后,Kimi K2 Thinking又给OpenAI们亿点点震撼

中国初创公司月之暗面推出的开源AI模型Kimi K2 Thinking在多项基准测试中超越GPT-5,训练成本仅为460万美元,显示出开源模型在性能与成本上的优势,可能改变全球AI竞争格局。

DeepSeek-R1之后,Kimi K2 Thinking又给OpenAI们亿点点震撼

TechWeb 全站精华
TechWeb 全站精华 · 2025-11-10T02:15:51Z

腾讯推出的无训练组相对策略优化(Training-Free GRPO)方法,仅需120元即可显著提升大模型性能,超越70000元的微调方案。该方法通过动态更新经验知识库,无需调整模型参数,降低训练成本,适用于数学推理和网页搜索等任务。实验结果表明,Training-Free GRPO在多个基准测试中表现优异,具有高性价比和有效性。

腾讯发布超低成本AI训练法!120元效果秒杀70000元微调方案

量子位
量子位 · 2025-10-15T06:39:07Z
从 AI 哪里挣钱?

根据国际能源署,预计到2030年数据中心电力消耗将达到945太瓦时,超过大多数国家。AI芯片市场预计到2024年将达到1230亿美元,年增长率为33%。OpenAI和Anthropic等公司的估值大幅上升,但训练成本也在增加。基础设施层推动AI革命,应用层则实现经济价值。

从 AI 哪里挣钱?

鸟窝
鸟窝 · 2025-09-30T16:00:00Z
训练成本29.4万美元,DeepSeek-R1登Nature封面,首个通过权威期刊同行评审的主流大模型获好评

DeepSeek-R1于9月17日登上《Nature》封面,成为首个经过同行评审的大模型。其训练成本仅为29.4万美元,远低于行业标准。研究表明,DeepSeek-R1-Zero在推理能力上表现出色,数学竞赛准确率提升至86.7%。该成果为AI研究提供了透明和规范的范例。

训练成本29.4万美元,DeepSeek-R1登Nature封面,首个通过权威期刊同行评审的主流大模型获好评

HyperAI超神经
HyperAI超神经 · 2025-09-18T08:43:18Z

Sanaka AI提出了一种新方法,使教师模型能够像人类教师一样进行启发式教学,训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率,并显著降低了训练成本。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

量子位
量子位 · 2025-06-25T06:23:22Z
小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

本文介绍了一种新型极简激活超级大脑模型,参数总数为142B,动态激活为14B,训练成本仅为Qwen2.5-72B的1/4。该模型在中文理解、数学推理和代码生成等任务中表现优异,并开源了训练过程,强调数据质量和系统创新的重要性。未来将探索稀疏注意力和模拟人类学习效率。

小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

我爱自然语言处理
我爱自然语言处理 · 2025-06-11T02:53:07Z

阿里通义推出PARSCALE新策略,使1.6B模型性能接近4.4B,内存占用仅为1/22,延迟增加1/6。该方法通过并行计算和动态聚合权重,显著提升模型能力,训练成本降低98%。

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

量子位
量子位 · 2025-05-28T07:10:29Z

本研究提出双头优化(DHO)框架,旨在解决资源有限环境中视觉语言模型(VLMs)的计算复杂性和训练成本问题。DHO通过独立学习标记数据和教师预测,显著提升特征学习效率,并在多个领域和数据集上超越传统基线。

A Simple Semi-Supervised Knowledge Distillation Method via Dual-Head Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了一种弹性推理框架,解决了大型推理模型在复杂任务中输出长度不受控的问题。该框架将推理过程分为思考和解决两个阶段,独立分配预算,从而提高了在资源紧张情况下的可靠性。实验证明,弹性推理在严格预算下表现优异,训练成本低于基线方法。

Scalable Chain of Thoughts via Elastic Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

中国科学院计算技术研究所推出的LLaMA-Omni2是一个支持语音的大型语言模型,结合语音感知与语言理解,实现实时口语对话。该模型采用端到端流水线,训练成本低且具有模块化可解释性。在200K语音对话样本上训练后,LLaMA-Omni2的表现优于基线模型,证明高质量、低延迟的语音交互无需大量语料库。

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

实时互动网
实时互动网 · 2025-05-07T02:28:07Z

本研究提出了一种新型低比特优化器,利用超低精度量化技术降低训练成本,解决了信号淹没和梯度方差增加的问题,实现显著的内存节省,促进基础研究的可达性。

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z
斯坦福2025 AI Index报告来了:DeepSeek在全文中被提到45次

斯坦福大学发布的《2025 AI Index》报告分析了人工智能的发展现状,指出美国在模型发布方面领先,中国迅速追赶。报告强调训练成本上升、推理成本下降,人工智能的碳足迹仍在增加。尽管企业投资持续增长,实际回报尚未显著。报告还提到人工智能在医疗领域的潜力,以及美国政策向州级转变。总体来看,公众对人工智能持乐观态度。

斯坦福2025 AI Index报告来了:DeepSeek在全文中被提到45次

机器之心
机器之心 · 2025-04-08T05:31:11Z

该研究提出了一种新的微调迁移方法,旨在提高大型语言模型的更新效率。通过从旧模型转移微调,可以显著提升新模型的性能,减少训练成本。

Efficient Model Development through Fine-tuning Transfer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种遮罩指导的视频生成方法,旨在降低文本到视频生成模型的训练成本和数据需求。该模型通过前景遮罩和运动轨迹控制,提升了视频生成的一致性和质量,适用于视频编辑和艺术视频生成。

基于动态遮罩指导的视频生成的资源高效运动控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

LightGen模型由港科大与Everlyn AI合作开发,仅需8张GPU训练即可实现接近SOTA的高质量图像生成。通过知识蒸馏和直接偏好优化,显著降低了训练成本与资源需求,展现出在有限条件下生成高效图像的潜力。实验结果表明,LightGen在多个任务上优于现有模型,未来可扩展至其他生成任务。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

量子位
量子位 · 2025-03-19T04:20:46Z
生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

AIxiv专栏报道Liquid框架,该框架通过VQGAN将图像编码为离散视觉token,实现多模态生成与理解的统一。Liquid无需修改现有大语言模型,降低训练成本并保留语言能力,推动多模态智能发展。实验结果表明,Liquid在视觉生成和理解任务中表现优异,验证了多模态任务的互惠关系。

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

机器之心
机器之心 · 2025-03-04T01:18:16Z

深度求索公司推出的deepseek-v3和deepseek-r1大语言模型已达到顶级水平,且免费开源。尽管显卡资源需求较少,但训练成本高,普通用户难以部署全尺寸模型,通常只能使用小型蒸馏版本。LM Studio可在本地运行简化模型,适合学习和知识检索。

使用 LM Studio 在本地部署 Deepseek-R1 的蒸馏版大模型

Nicksxs's Blog
Nicksxs's Blog · 2025-02-23T13:14:34Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码