小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大模型跑在端侧,到底有多难?我们踩过的那些坑

端侧AI面临内存不足、算子不兼容、性能瓶颈和散热问题等挑战。尽管技术进步,实际应用仍需克服困难。然而,隐私保护和低延迟需求推动了端侧AI的发展,未来值得期待。

大模型跑在端侧,到底有多难?我们踩过的那些坑

迷途小书童
迷途小书童 · 2026-05-27T12:59:10Z
[MAF的Agent管道详解-02]IChatClient管道如何完美连接大模型? - Artech

本文介绍了IChatClient管道的结构与功能。IChatClient作为与LLM交互的连接器,提供GetResponseAsync和GetStreamingResponseAsync两种方法,支持多种对话选项。通过DelegatingChatClient类,可以创建中间件,增强请求和响应的处理能力,实现灵活的功能扩展。ChatClientBuilder类简化了中间件的构建过程,方便用户定制IChatClient管道。

[MAF的Agent管道详解-02]IChatClient管道如何完美连接大模型? - Artech

Artech
Artech · 2026-05-27T01:15:00Z
厦门绩牛智能科技:用文心大模型让创意与知识“零门槛“落地

厦门绩牛智能科技公司利用百度文心大模型和飞桨技术,研发了聚焦创意内容生成和企业知识管理的两款AI产品。这些产品已被500多家机构采用,推动企业AI化转型,提升工作效率和准确性。

厦门绩牛智能科技:用文心大模型让创意与知识“零门槛“落地

百度大脑
百度大脑 · 2026-05-26T11:03:09Z
图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程

2026年智源大会将于6月12日至13日在北京举行,聚焦AI领域的智能体与世界模型等前沿技术。大会将汇聚国际顶尖学者与企业领袖,探讨AI的未来发展与应用,关注智能系统的安全与稳定运行,并讨论AI对教育与经济的影响。

图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程

量子位
量子位 · 2026-05-25T04:38:24Z
将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

面壁智能推出的BitCPM-CANN三值大模型显著降低显存需求,最高可节省6倍,同时保留97%的模型能力。该模型首次在华为昇腾平台上完成训练,支持多种应用场景,从手机到PC。通过三值量化技术,模型在保持性能的同时显著减少内存占用,为AI在终端设备的应用提供了新可能。

将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

爱范儿
爱范儿 · 2026-05-25T04:05:47Z
最近使用vibe coding的一些感悟

最近,vibe coding使编程更加普及,缩小了开发者与新手之间的差距。大模型能够快速实现想法和处理复杂任务,但理解项目背景和上下游合作仍需人力介入。有效利用模型需要清晰的任务拆解和表达,以提升架构能力,完成复杂任务。

最近使用vibe coding的一些感悟

Nicksxs's Blog
Nicksxs's Blog · 2026-05-24T13:07:23Z
零成本运行agent:三个免费AI大模型供应商实测推荐

本文推荐了三个适合运行AI智能体的免费AI大模型供应商:Google AI Studio每日提供1500次请求,OpenRouter通过10美元押金解锁每日1000次请求,Groq以超快速度处理任务。组合使用这三者可实现零成本全天候运行代理,节省每月20美元。

零成本运行agent:三个免费AI大模型供应商实测推荐

极道
极道 · 2026-05-22T00:31:00Z
cli-trainer Skill 上线,在 AI Agent 里一键微调大模型

星河社区推出cli-trainer,简化大模型微调流程。用户在AI IDE中输入需求后,系统自动完成环境检测、数据上传和训练提交,无需编写代码。支持多种模型和数据格式,训练后可通过API调用模型,旨在提升用户体验,减少操作步骤。

cli-trainer Skill 上线,在 AI Agent 里一键微调大模型

百度大脑
百度大脑 · 2026-05-21T11:02:44Z
Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五

阿里云新发布的Qwen3.7-Max大模型在全球大模型榜单中得分56.6,位列全球第五、国产第一,超越多款国产模型。该模型在编程、智能体和推理等方面有显著突破,能够独立完成复杂任务,并在指令跟踪和长文本生成等领域表现优异。

Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五

量子位
量子位 · 2026-05-21T09:16:12Z
大模型狂飙的尽头,这家国产 GPU 厂商要把算力放在客厅

摩尔线程推出了家庭AI中枢AICUBE,集成AI计算、图形渲染和存储功能,旨在将云端算力引入家庭。AICUBE支持本地模型运行,解决传统云服务的延迟和隐私问题,展示了全功能GPU在家庭场景中的应用潜力,标志着智能物联网的未来发展方向。

大模型狂飙的尽头,这家国产 GPU 厂商要把算力放在客厅

爱范儿
爱范儿 · 2026-05-21T09:03:49Z
下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?

ZCube架构通过扁平化网络设计解决了PD分离部署中的网络拥塞问题,相较于传统ROFT架构,在成本、吞吐量和延迟上均有显著提升,降低了结构性拥塞的发生概率,提升了推理性能和成本效率。

下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?

实时互动网
实时互动网 · 2026-05-21T03:12:07Z
智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来在北京发布了图像大模型HiDream-O1-Image-Pro,该模型基于原生全模态架构,参数超过200亿,刷新多项基准测试纪录。公司完成新一轮融资,显示市场对原生全模态模型的信心。该模型通过统一图像、文本和任务条件,提升生成和泛化能力,推动AI向理解和构建世界的方向发展。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

量子位
量子位 · 2026-05-20T14:09:25Z
用苹果 M5 Max 跑大模型真的省钱吗?有人算了一笔账

使用14寸MacBook Pro M5 Max(64GB内存)本地运行大模型的成本高于在线API。经过电费和硬件折旧计算,3年使用的总成本约为每小时$0.18,而在线模型速度更快且成本更低,建议直接使用在线服务。

用苹果 M5 Max 跑大模型真的省钱吗?有人算了一笔账

小众软件
小众软件 · 2026-05-20T02:52:55Z

本文探讨了将大模型视为电子元件的思维实验,分析其性能与极限。通过类比电子工程中的放大器和阻抗匹配,提出差分、级联和反馈等方法来优化模型性能。文章指出,组合现有模型设计可以在许多任务上超越更大模型,标志着大模型的“分立元件时代”结束,进入“集成电路设计”阶段。

把大模型当成晶体管:从阻抗匹配到集成运放的思维实验

Guyskk的博客
Guyskk的博客 · 2026-05-19T08:00:00Z
大模型内化的十年开源积累,正在补完 shadowsocks 的原始愿景

自2012年提出以来,Shadowsocks技术用户已能轻松自建,但非技术用户仍面临障碍。到2025-2026年,开源社区的贡献被大模型内化,降低了协议自定义的成本。用户可在VPS上快速部署服务,甚至无需编写代码,简化了混淆插件的创建过程,使得低成本实现混淆成为可能。

大模型内化的十年开源积累,正在补完 shadowsocks 的原始愿景

Lv. MAX
Lv. MAX · 2026-05-19T00:00:00Z
大模型不只是猜下一个词:猜词猜出了智能的雏形

大语言模型(LLM)不仅仅是预测下一个词的工具。虽然其训练任务是词汇预测,但为了提高准确性,模型必须学习语法、常识和推理等深层结构。这些能力使得模型在新场景中展现出智能行为,因此将其简单视为“猜词”是不全面的。

大模型不只是猜下一个词:猜词猜出了智能的雏形

极道
极道 · 2026-05-17T23:05:00Z
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

量子位
量子位 · 2026-05-17T03:42:11Z
大模型不适用于临床管理:对真实世界电子健康记录中结构化查询的评估

西奈山的研究表明,人工智能在医院管理任务中表现不佳,尤其是在处理电子健康记录时。尽管AI能够理解问题,但由于未使用工具计算,导致错误。赋予模型编写代码的能力后,准确率显著提高。研究强调,AI应与传统工具结合使用,以优化医疗系统的性能。

大模型不适用于临床管理:对真实世界电子健康记录中结构化查询的评估

极道
极道 · 2026-05-16T23:15:00Z
大模型缓存技术工程指南(下):面向缓存命中的 Prompt 与 Agent 工程实践

本文讨论了大模型缓存技术的工程实践,强调通过合理组织Prompt和工具定义来提高缓存命中率。建议使用稳定前缀和动态后缀的结构,避免在稳定前缀中使用动态变量,并确保固定内容版本化。同时,建议建立Prompt Block Registry和缓存观测指标,以实现缓存优化和成本治理,最终目标是构建高效的上下文工程体系,提升模型调用的稳定性和效率。

大模型缓存技术工程指南(下):面向缓存命中的 Prompt 与 Agent 工程实践

Wayne的技术博客
Wayne的技术博客 · 2026-05-16T02:23:00Z
大模型缓存技术工程指南(上):从价格信号到推理缓存机制

大模型缓存技术包括KV Cache、Prompt Cache和Prefix Cache等,旨在提高生成效率和降低成本。KV Cache避免重复计算,Prompt Cache和Prefix Cache用于跨请求复用相同前缀。应用层的Semantic Cache和Response Cache可以复用历史答案,减少模型调用。本文探讨了缓存机制的设计、成本测算及常见误区,强调了缓存对大模型推理的重要性。

大模型缓存技术工程指南(上):从价格信号到推理缓存机制

Wayne的技术博客
Wayne的技术博客 · 2026-05-16T01:53:14Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码