小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
OpenClaw通过CLI绕过Claude API限制新玩法曝光

OpenClaw通过Claude Code CLI绕过API限制,实现任务分发。小型模型处理简单任务,大型模型负责复杂工作。这种架构降低了成本,但缺乏上下文理解,不适合全能管家角色。

OpenClaw通过CLI绕过Claude API限制新玩法曝光

极道
极道 · 2026-04-06T23:53:00Z
跨模块、宽度、深度、批量和时长的完整超参数转移

本文探讨了超参数转移在大型模型训练中的重要性,提出了一种完整参数化方法,统一了宽度、深度、批量大小和训练时长的缩放。研究表明,适当的参数化可以显著提高大型语言模型的训练速度。

跨模块、宽度、深度、批量和时长的完整超参数转移

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-13T00:00:00Z
开源检索基础设施可以弥补AI的生产差距

大型模型在早期受到关注,但企业工程团队面临挑战,模型规模的追求忽视了检索瓶颈,导致AI项目仍处于原型阶段。检索增强生成(RAG)通过真实数据提高准确性,解决了AI系统的幻觉问题。企业应重视检索基础设施,采用开源数据库以实现灵活定制,确保数据治理和透明度。RAG的普及为AI提供了可靠基础,推动企业向生产级AI系统发展。

开源检索基础设施可以弥补AI的生产差距

The New Stack
The New Stack · 2026-01-09T18:00:08Z
使用流水线并行性在多个GPU上训练大型模型

本文介绍了如何在PyTorch中使用流水线并行性训练大型模型。流水线并行性将模型分为多个阶段,以便在多个GPU上并行处理。内容包括流水线并行性的概念、模型准备、训练循环和分布式检查点,强调了在分布式环境中保存和恢复模型状态的复杂性。

使用流水线并行性在多个GPU上训练大型模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-29T20:56:53Z
Vercel AI - Vercel推出的开源TypeScript AI工具包,简化大型模型的构建…

Vercel AI是一个开源的TypeScript工具包,旨在简化大型模型在前端和边缘环境中的集成,支持多模型和流式响应,并与Next.js和React无缝集成,帮助前端工程师快速嵌入大型语言模型功能。

Vercel AI - Vercel推出的开源TypeScript AI工具包,简化大型模型的构建…

云原生
云原生 · 2025-11-30T12:07:39Z
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型,支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型,采用动态容量路由和渐进式监督学习,显著提升了跨模态推理能力,尤其在视频理解和长语音处理方面表现优异。

Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网
实时互动网 · 2025-11-19T02:32:18Z
通过稀疏电路理解神经网络

神经网络是现代AI系统的核心,但理解其工作原理较为困难。可解释性方法帮助我们理解模型输出的原因。机械可解释性通过逆向工程模型计算,尽管复杂,但能提供更全面的解释。通过训练稀疏模型,我们发现可以简化模型内部计算,使其更易于理解。未来,我们希望扩展这些技术,以更好地解释大型模型的行为。

通过稀疏电路理解神经网络

OpenAI
OpenAI · 2025-11-13T10:00:00Z
为什么小型语言模型(SLM)有望重新定义 Agentic AI:效率、成本和实际部署

随着Agentic AI系统的发展,研究表明小型语言模型(SLM)在效率和经济性上优于大型模型(LLM),更适合大多数代理操作。建议采用模块化系统,优先使用SLM,必要时再使用LLM,以提升AI系统的可持续性和灵活性。

为什么小型语言模型(SLM)有望重新定义 Agentic AI:效率、成本和实际部署

实时互动网
实时互动网 · 2025-06-19T03:16:16Z

本研究探讨了机制可解释性在简单电路与大型模型特征发现中的差距,提出TinySQL数据集作为测试平台,揭示可解释性方法的潜力与局限性,并改进合成数据集设计。

TinySQL:用于机制可解释性研究的渐进式文本到SQL数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z
2025年的人工智能

到2024年,AI生态系统逐渐成熟,五大公司在大型模型竞赛中脱颖而出。2025年将是AI搜索的关键年,行业将出现专业化的AI搜索引擎。尽管投资回报存在问题,大科技公司将稳定资本支出,推动AI创新。

2025年的人工智能

Sequoia Capital US/Europe
Sequoia Capital US/Europe · 2024-12-09T16:00:00Z
数据的未来:变换模型与大数据转型的对比

大型模型的崛起引发了对传统ETL流程的讨论。尽管大型模型在数据处理上表现优异,ETL因其高效性和可解释性仍将继续存在。未来,ETL与大型模型的结合将推动数据处理智能化。

数据的未来:变换模型与大数据转型的对比

DEV Community
DEV Community · 2024-12-04T02:41:52Z

MindSpeed开发了一种优化训练大型模型的解决方案,特别是长序列。他们改进了并行算法、计算效率、内存使用和通信,以支持使用数百万个长序列进行训练。他们的解决方案包括支持三种并行算法,FlashAttention用于高效计算注意力,内存优化技术和P2P通信优化。MindSpeed旨在加速大型模型的分布式训练。

百万级超长序列大模型训练如何加速,硬核解读MindSpeed方案

华为云官方博客
华为云官方博客 · 2024-08-14T06:20:07Z

本文探讨了多语言情感分析的有效性,比较了小型多语言模型与大型通用模型在零样本和少样本设置中的表现。研究表明,递归神经网络和预训练的BERT模型能提高情感分类的准确性。此外,提出了一种新的多语言情感分析框架,经过测试,尤其在金融情感分析中,基于检索增强的模型显著提升了准确性。

利用大型语言模型进行立陶宛在线评论的情感分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

上海AI实验室推出了首个模拟交互式3D世界“GRUtopia”,包含89个场景类别。项目计划开源,提供demo安装指南。核心工作包括GRScenes(大规模场景数据集)、GRResidents(NPC系统)和GRBench(benchmark)。实验结果表明,使用大型模型作为后端代理的表现更好。研究工作由上海人工智能实验室OpenRobot Lab领衔。

“具身智能小镇”来了!机器人逛超市买菜满街跑,来自上海AI Lab

量子位
量子位 · 2024-07-22T08:41:50Z

手机端运行大型模型是未来趋势,但硬件条件限制。目前高端手机如iPhone 15 Pro显存不足,无法支持大型模型。通过模型量化可以降低显存需求,部分应用已实现优化,能够在低内存设备上运行。尽管图生成模型在高端机上可行,LLM模型仍需系统级集成,实际应用尚待时日。

手机能跑图生成和 LLM 大模型吗

bang's blog
bang's blog · 2024-06-11T11:35:27Z
在稳定扩散中生成逼真的人脸

本文介绍了低秩适应(LoRA)技术,它是一种用于微调大型语言和稳定扩散模型的轻量级训练技术。LoRA通过添加少量新的权重进行训练,减少可训练参数的数量,加快训练速度,并减小文件大小。LoRA模型可以更容易地存储、共享和使用。LoRA是微软研究人员提出的一种先进的微调方法,可以将大型模型适应特定概念。LoRA模型相对较小且更高效,可以频繁地微调以适应特定概念或风格。LoRA模型可以用于捕捉特定角色的外观、特定艺术家或风格的艺术作品以及特定概念或风格的服装。LoRA模型的使用非常简单,只需在提示中添加关键词即可。LoRA是一种轻量级的增强技术,可以轻松改变生成结果。

在稳定扩散中生成逼真的人脸

MachineLearningMastery.com
MachineLearningMastery.com · 2024-04-20T14:32:52Z

本文综述了大型模型驱动的数据增强方法,涵盖图像、文本和配对数据增强,评估其在不同场景下的成功与限制,并探讨未来研究方向。重点介绍基于神经网络和变换器的技术,讨论数据增强的实际问题及解决方案,以提高机器学习分类系统的泛化能力。

利用数据增强技术进行过程信息提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

最近的研究调查了大型语言模型在指令遵循方面的表现。较大的模型在遵循指令方面表现最佳,并且对内部和上下文指令具有覆盖能力。然而,在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区,以保持指令遵循能力。提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突,因此处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

忽略不计:大型语言模型中的指令覆盖和调控

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

大型模型在深度学习领域取得显著成绩,但其不可信赖的行为成为挑战。本综述总结了人类误用、易受攻击、内在问题和解释性四个问题,并提出对策,希望促进大型模型与人类期望的一致性。

通过复用经验证的电路增强对语言模型的信任

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-04T00:00:00Z

大型模型在深度学习中取得显著成绩,但其不可信赖的行为成为挑战。本文总结了视觉领域中的四个问题,包括人类误用、易受攻击、内在问题和解释性,并提出对策,希望促进大型模型与人类期望的一致性。

值得信赖的视觉语言模型的探险:一项调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码