小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenClaw通过CLI绕过Claude API限制新玩法曝光

OpenClaw通过Claude Code CLI绕过API限制,实现任务分发。小型模型处理简单任务,大型模型负责复杂工作。这种架构降低了成本,但缺乏上下文理解,不适合全能管家角色。

OpenClaw通过CLI绕过Claude API限制新玩法曝光

极道
极道 · 2026-04-06T23:53:00Z
跨模块、宽度、深度、批量和时长的完整超参数转移

本文探讨了超参数转移在大型模型训练中的重要性,提出了一种完整参数化方法,统一了宽度、深度、批量大小和训练时长的缩放。研究表明,适当的参数化可以显著提高大型语言模型的训练速度。

跨模块、宽度、深度、批量和时长的完整超参数转移

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-13T00:00:00Z
开源检索基础设施可以弥补AI的生产差距

大型模型在早期受到关注,但企业工程团队面临挑战,模型规模的追求忽视了检索瓶颈,导致AI项目仍处于原型阶段。检索增强生成(RAG)通过真实数据提高准确性,解决了AI系统的幻觉问题。企业应重视检索基础设施,采用开源数据库以实现灵活定制,确保数据治理和透明度。RAG的普及为AI提供了可靠基础,推动企业向生产级AI系统发展。

开源检索基础设施可以弥补AI的生产差距

The New Stack
The New Stack · 2026-01-09T18:00:08Z
使用流水线并行性在多个GPU上训练大型模型

本文介绍了如何在PyTorch中使用流水线并行性训练大型模型。流水线并行性将模型分为多个阶段,以便在多个GPU上并行处理。内容包括流水线并行性的概念、模型准备、训练循环和分布式检查点,强调了在分布式环境中保存和恢复模型状态的复杂性。

使用流水线并行性在多个GPU上训练大型模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-29T20:56:53Z
Vercel AI - Vercel推出的开源TypeScript AI工具包,简化大型模型的构建…

Vercel AI是一个开源的TypeScript工具包,旨在简化大型模型在前端和边缘环境中的集成,支持多模型和流式响应,并与Next.js和React无缝集成,帮助前端工程师快速嵌入大型语言模型功能。

Vercel AI - Vercel推出的开源TypeScript AI工具包,简化大型模型的构建…

云原生
云原生 · 2025-11-30T12:07:39Z
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型,支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型,采用动态容量路由和渐进式监督学习,显著提升了跨模态推理能力,尤其在视频理解和长语音处理方面表现优异。

Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网
实时互动网 · 2025-11-19T02:32:18Z
通过稀疏电路理解神经网络

神经网络是现代AI系统的核心,但理解其工作原理较为困难。可解释性方法帮助我们理解模型输出的原因。机械可解释性通过逆向工程模型计算,尽管复杂,但能提供更全面的解释。通过训练稀疏模型,我们发现可以简化模型内部计算,使其更易于理解。未来,我们希望扩展这些技术,以更好地解释大型模型的行为。

通过稀疏电路理解神经网络

OpenAI
OpenAI · 2025-11-13T10:00:00Z
为什么小型语言模型(SLM)有望重新定义 Agentic AI:效率、成本和实际部署

随着Agentic AI系统的发展,研究表明小型语言模型(SLM)在效率和经济性上优于大型模型(LLM),更适合大多数代理操作。建议采用模块化系统,优先使用SLM,必要时再使用LLM,以提升AI系统的可持续性和灵活性。

为什么小型语言模型(SLM)有望重新定义 Agentic AI:效率、成本和实际部署

实时互动网
实时互动网 · 2025-06-19T03:16:16Z

本研究探讨了机制可解释性在简单电路与大型模型特征发现中的差距,提出TinySQL数据集作为测试平台,揭示可解释性方法的潜力与局限性,并改进合成数据集设计。

TinySQL:用于机制可解释性研究的渐进式文本到SQL数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z
2025年的人工智能

到2024年,AI生态系统逐渐成熟,五大公司在大型模型竞赛中脱颖而出。2025年将是AI搜索的关键年,行业将出现专业化的AI搜索引擎。尽管投资回报存在问题,大科技公司将稳定资本支出,推动AI创新。

2025年的人工智能

Sequoia Capital US/Europe
Sequoia Capital US/Europe · 2024-12-09T16:00:00Z
数据的未来:变换模型与大数据转型的对比

大型模型的崛起引发了对传统ETL流程的讨论。尽管大型模型在数据处理上表现优异,ETL因其高效性和可解释性仍将继续存在。未来,ETL与大型模型的结合将推动数据处理智能化。

数据的未来:变换模型与大数据转型的对比

DEV Community
DEV Community · 2024-12-04T02:41:52Z

该论文回顾了大型模型在天气预报中的应用,强调了它们在改善传统预报方法方面的作用。这些模型利用深度学习技术处理气象数据,提高了预测准确性。论文还讨论了该领域的挑战,并探索了模型优化和硬件进展的未来机会。它强调了人工智能与传统气象技术的整合,承诺提高天气预报准确性,并在应对气候挑战方面做出重要贡献。

基于小波神经网络的天气自适应多步预测空中光纤偏振状态变化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

MindSpeed开发了一种优化训练大型模型的解决方案,特别是长序列。他们改进了并行算法、计算效率、内存使用和通信,以支持使用数百万个长序列进行训练。他们的解决方案包括支持三种并行算法,FlashAttention用于高效计算注意力,内存优化技术和P2P通信优化。MindSpeed旨在加速大型模型的分布式训练。

百万级超长序列大模型训练如何加速,硬核解读MindSpeed方案

华为云官方博客
华为云官方博客 · 2024-08-14T06:20:07Z

本文介绍了一种新颖的LM-RRG方法,结合大型模型和临床质量强化学习,生成准确全面的胸部X射线报告。该方法通过特征提取器分析和解释X射线图像的不同区域,强调医学意义,并利用多模态提示生成放射学报告。实验结果证明了该方法的优越性。

基于熵增强的自我关键序列训练在放射学报告生成中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

本文研究了大型神经视频编码模型的建立及其对视频压缩性能的影响。通过逐步扩大模型的规模和多个编码部分,设计了具有10亿以上参数的神经视频编码模型NVC-1B,并证明其在视频压缩性能上取得了显著改进。大型模型将推动视频编码技术进入新的阶段。

NVC-1B:一种大规模神经视频编码模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-28T00:00:00Z

上海AI实验室推出了首个模拟交互式3D世界“GRUtopia”,包含89个场景类别。项目计划开源,提供demo安装指南。核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(benchmark)。实验结果表明,使用大型模型作为后端代理的表现更好。研究工作由上海人工智能实验室OpenRobot Lab领衔。

“具身智能小镇”来了!机器人逛超市买菜满街跑,来自上海AI Lab

量子位
量子位 · 2024-07-22T08:41:50Z

通过计算发现大而稀疏的深度神经网络比大而密集的深度神经网络使用更少的能量,并具有可接受的准确性。将能源使用作为关键指标可以帮助减少机器学习的碳足迹。

ML 训练与推断中的能耗实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

通过计算发现大而稀疏的深度神经网络比大而密集的深度神经网络使用更少的能量,并具有可接受的准确性。将能源使用作为关键指标可以帮助减少机器学习的碳足迹。

OpenCarbonEval:大规模 AI 模型中的统一碳排放估计框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

该论文回顾了大型模型在天气预报中的应用,强调了它们在改善传统预报方法方面的作用。这些模型利用先进的神经网络架构处理气象数据,提高了预测准确性。论文还讨论了该领域的挑战,并探索了未来机会。它强调了人工智能与传统气象技术的整合,承诺提高天气预报准确性。

危险风险管理的潜在范式转变:基于人工智能的热带气旋灾害天气预报

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z
在稳定扩散中生成逼真的人脸

本文介绍了低秩适应(LoRA)技术,它是一种用于微调大型语言和稳定扩散模型的轻量级训练技术。LoRA通过添加少量新的权重进行训练,减少可训练参数的数量,加快训练速度,并减小文件大小。LoRA模型可以更容易地存储、共享和使用。LoRA是微软研究人员提出的一种先进的微调方法,可以将大型模型适应特定概念。LoRA模型相对较小且更高效,可以频繁地微调以适应特定概念或风格。LoRA模型可以用于捕捉特定角色的外观、特定艺术家或风格的艺术作品以及特定概念或风格的服装。LoRA模型的使用非常简单,只需在提示中添加关键词即可。LoRA是一种轻量级的增强技术,可以轻松改变生成结果。

在稳定扩散中生成逼真的人脸

MachineLearningMastery.com
MachineLearningMastery.com · 2024-04-20T14:32:52Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码