小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
面向电商直播场景的全模态大模型推理加速方案

本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布,解决了vLLM对Omni模型支持不足的问题。采用SmoothQuant与GPTQ的复合量化方案,构建了5000条高质量数据的校准集,确保模型效果。最终在H20与RTX 4090上测试,推理加速达2.5至3.5倍,精度损失控制在1.5%以内。

面向电商直播场景的全模态大模型推理加速方案

实时互动网
实时互动网 · 2026-04-29T10:39:31Z
Claude Mythos Preview 模型能力解析:大模型攻防实测与企业应对建议

绿盟科技的报告分析了Anthropic的Claude Mythos模型,指出其在0day漏洞挖掘和网络攻击中的高效能,可能增加开源供应链的风险。报告建议企业应对AI驱动的网络威胁,构建智能防御体系,并加强安全运营和开发流程中的AI集成,以提升网络安全防御能力。

Claude Mythos Preview 模型能力解析:大模型攻防实测与企业应对建议

绿盟科技技术博客
绿盟科技技术博客 · 2026-04-29T10:34:31Z
银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用,突破了传统模型的局限。该模型有效整合多种数据源,快速适应不同机器人,降低数据获取成本,推动了行业技术进步和产业化进程。

银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻

量子位
量子位 · 2026-04-29T02:23:06Z
你的「深夜听音人格」是什么?蜻蜓FM × 百度文心大模型联合出品

ListenBTI深夜听音人格测试由蜻蜓FM与百度文心大模型联合推出,用户通过回答12道问题,解锁16种听音人格,并生成个性化海报。该测试旨在探索AI与音频内容的创新结合,提供沉浸式互动体验。

你的「深夜听音人格」是什么?蜻蜓FM × 百度文心大模型联合出品

百度大脑
百度大脑 · 2026-04-28T11:33:18Z
AI真能搞钱了!这家公司把大模型玩成闭环赚钱机器

零犀科技通过自研因果大模型,专注于提升企业销售业绩,实现规模盈利与正现金流。其RaaS模式强调结果导向,帮助客户直接获得业务增量。后训练机制提升了AI的决策能力,已在金融、保险等领域取得显著成效,成为行业领先者。

AI真能搞钱了!这家公司把大模型玩成闭环赚钱机器

量子位
量子位 · 2026-04-28T07:21:21Z
实测:推荐一个大模型API中转站,1元100刀额度,支持GPT5.5/image2/deepseekv4等主流模型,codex/Claude Code/opencode都可用,便宜稳定!

文章提到一种在线服务,用户只需支付1元即可获得100美元的额度,并支持多种工具,如GPT5.5和Claude Code。作者对使用体验表示满意。

实测:推荐一个大模型API中转站,1元100刀额度,支持GPT5.5/image2/deepseekv4等主流模型,codex/Claude Code/opencode都可用,便宜稳定!

老胡的博客
老胡的博客 · 2026-04-27T05:19:03Z
本地大模型进阶|Ollama Tool Calling完全教程:工具调用原理、实操与Agent循环实战

本文介绍了Ollama工具调用的详细教程,该功能允许大语言模型通过分析用户问题,调用外部函数获取信息,从而提升回答实时信息的准确性。Ollama支持多种模型,用户可通过API与SDK实现工具调用,流程包括用户提问、模型生成调用指令、客户端执行函数、模型生成最终答案,使模型更智能,能够自动处理复杂问题。

本地大模型进阶|Ollama Tool Calling完全教程:工具调用原理、实操与Agent循环实战

人言兑
人言兑 · 2026-04-26T10:25:39Z
Ollama launch用法详解:Claude Code、Codex、Hermes Agent、OpenClaw、VS Code等主流工具集成一步到位,本地AI大模型多场景复用

本文介绍了Ollama的命令及其与Codex、Claude Code、Hermes Agent、OpenClaw和VS Code等工具的集成。Ollama v0.15+引入的“ollama launch”命令简化了本地模型的配置与启动,用户可通过一条命令实现多种工具的无缝衔接,提升编码效率。

Ollama launch用法详解:Claude Code、Codex、Hermes Agent、OpenClaw、VS Code等主流工具集成一步到位,本地AI大模型多场景复用

人言兑
人言兑 · 2026-04-26T09:42:31Z
本地大模型API开发指南|Ollama API教程:generate与chat区别详解,全端点实操指南

本文介绍了Ollama HTTP API的使用,重点区分了generate和chat两个核心端点。generate用于单次补全,而chat适合多轮对话。文章详细解析了各API端点的参数和示例,建议新手从/chat端点开始,逐步掌握API的使用。

本地大模型API开发指南|Ollama API教程:generate与chat区别详解,全端点实操指南

人言兑
人言兑 · 2026-04-26T09:01:24Z
全球首个医疗视频理解大模型开源!6k+组精标测试集与英雄榜同步上线,开发者速来!

uAI Nexus MedVLM是全球首个开源医疗视频理解大模型,能够准确分析手术视频,显著提升手术安全性和效率。该模型的发布标志着医疗视频理解领域的重要突破,促进了全球开发者的合作与技术进步。

全球首个医疗视频理解大模型开源!6k+组精标测试集与英雄榜同步上线,开发者速来!

量子位
量子位 · 2026-04-26T05:24:56Z
Ollama量化全指南:3种方法+量化级别参考,普通电脑也能跑大模型

本文介绍了Ollama大模型的量化技术,旨在降低模型对硬件资源的消耗,使其在普通电脑上流畅运行。量化通过降低参数精度,显著减少显存和内存占用,同时提升计算速度。文章详细说明了量化的原理、实操方法及不同量化级别的选择,适合新手快速上手。

Ollama量化全指南:3种方法+量化级别参考,普通电脑也能跑大模型

人言兑
人言兑 · 2026-04-25T17:05:35Z
SOTA是什么意思?AI、大模型、深度学习中SOTA完全解读

SOTA是“State Of The Art”的缩写,指当前最先进的技术水平。在机器学习和深度学习中,SOTA模型是指在特定任务上表现最佳的模型。理解SOTA有助于识别技术前沿和模型性能。

SOTA是什么意思?AI、大模型、深度学习中SOTA完全解读

人言兑
人言兑 · 2026-04-25T16:06:23Z
Ollama Modelfile 完全指南:从零开始创建自定义量化 AI 大模型

本文介绍了如何在Ollama中使用Modelfile自定义量化模型。Modelfile是模型配置文件,定义模型来源、推理参数和对话模板。用户需准备GGUF格式的模型文件,并选择量化级别。文章详细说明了Modelfile的基本语法和指令,包括推理参数、对话格式和系统提示词的设置,并提供了创建和运行模型的实战案例及常见问题解决方案。

Ollama Modelfile 完全指南:从零开始创建自定义量化 AI 大模型

人言兑
人言兑 · 2026-04-25T12:44:20Z
本地部署AI大模型完全指南(最新):最低配置+工具+知识库+实战教程

随着AI技术的发展,越来越多的人希望在本地部署大模型,以保护数据隐私并实现零成本调用。本文介绍了本地部署大模型的意义、配置要求及推荐工具,适合开发者和普通用户。通过合理配置显卡和内存,用户可以在不同设备上流畅运行大模型,进行代码编写、文档翻译等多种应用。

本地部署AI大模型完全指南(最新):最低配置+工具+知识库+实战教程

人言兑
人言兑 · 2026-04-25T12:10:12Z
Python 潮流周刊#148:用大模型寻找 Python C 扩展漏洞

本期Python潮流周刊分享了12篇文章和开源项目,涵盖安全审计、供应链安全、Django内存修复及Python面向对象编程等主题,特别介绍了利用大模型寻找Python C扩展漏洞的研究,旨在提升技术水平和职业发展。

Python 潮流周刊#148:用大模型寻找 Python C 扩展漏洞

豌豆花下猫 | Python猫
豌豆花下猫 | Python猫 · 2026-04-25T00:00:00Z

文章探讨了大模型的使用成本,特别是输入、输出和缓存的费用。模型越大,能力越强,价格越高。推理过程分为预填充和解码,前者并行处理,后者逐个生成,导致计算量非线性增长。通过缓存技术可以降低重复计算成本,有效的上下文管理和明确的需求描述有助于节省Token,提升使用效率。

LLM Token 消耗节省计划

范叶亮的博客
范叶亮的博客 · 2026-04-25T00:00:00Z
谷歌狂砸400亿美金给Anthropic:两家大模型共用TPU自相残杀

谷歌向竞争对手Anthropic投资400亿美元,旨在通过资金和TPU芯片建立闭环交易,确保算力霸权。此举使谷歌在AI竞争中占据优势,强化其在云计算市场的地位。

谷歌狂砸400亿美金给Anthropic:两家大模型共用TPU自相残杀

极道
极道 · 2026-04-24T23:47:00Z
一文吃透Ollama Embeddings:概念、实操、避坑,助力RAG落地|本地部署AI大模型必备

本文介绍了Ollama中的嵌入向量及其在检索增强生成中的应用。嵌入向量将文本转换为数值数组,以便计算语义相似度。文章探讨了嵌入向量的生成方法、应用场景(如搜索引擎、去重、推荐系统)以及常见问题和解决方案,帮助新手理解和应用该技术。

一文吃透Ollama Embeddings:概念、实操、避坑,助力RAG落地|本地部署AI大模型必备

人言兑
人言兑 · 2026-04-24T10:40:15Z

大模型在对话文本中表现优异,但缺乏实际操作能力。为实现AI的实际应用,需要赋予其行动能力,主要有两种技术路线:MCP和Skills。MCP注重标准化和安全性,适合开发者;而Skills通过自然语言编程降低了使用门槛,适合普通用户。两者互补,未来将实现融合,以满足个性化需求并保障数据安全和稳定性。

约束或自由:AI 工具化的两种答案

路边的阿不
路边的阿不 · 2026-04-24T08:26:21Z
从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构,强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实现自动扩缩容,优化成本和性能,满足中国客户需求。该方案解决了延迟、数据本地化和成本问题,提供统一监控和最佳实践,帮助企业有效利用现有GPU资源。

从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T06:02:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码