小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

Google DeepMind 发布了新款多模态模型 Gemma 4 12B,参数为120亿,但在多项测试中表现接近260亿参数的模型。其无编码器架构显著降低了推理延迟和内存占用,支持音频输入,并可在普通笔记本上运行,降低了部署成本,为开发者提供了接近顶级性能的选择。

在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

HyperAI超神经
HyperAI超神经 · 2026-06-10T03:09:51Z
谷歌发布并开源Gemma 4 12B版多模态模型 可在16GB内存/显存上运行

谷歌发布了Gemma 4 12B多模态模型,支持文本、图片、视频和音频输入,能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构,降低延迟并简化输入处理,智能化程度接近Gemma 26B版。开发者可在多个平台体验和下载该模型。

谷歌发布并开源Gemma 4 12B版多模态模型 可在16GB内存/显存上运行

蓝点网
蓝点网 · 2026-06-04T04:00:42Z
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

Google DeepMind 发布了 Gemma 4 12B,这是一个无编码器的多模态模型,支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运行,性能接近 26B MoE 模型,但内存占用不到一半。它通过直接输入视觉和音频数据,简化了处理流程,提升了整体质量和指令遵循性。

Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频

实时互动网
实时互动网 · 2026-06-04T02:31:21Z
从Token无上限到全员Agent:MiniMax的AI Native组织进化实践

在2026中国AIGC产业峰会上,MiniMax负责人胡维琦指出,AI已从“玩具”转变为企业生产力工具,未来2-3年将与各行业深度融合,改变商业模式。MiniMax专注于多模态模型,致力于提供高效的AI解决方案,推动企业提效和组织变革。

从Token无上限到全员Agent:MiniMax的AI Native组织进化实践

量子位
量子位 · 2026-05-31T01:29:42Z
字节开源 Lance,3B 模型包揽理解/生成/编辑;新加坡国立大学提出 ViMU 数据集:涵盖 588 个视频与无提示问答

Lance是字节跳动于2026年发布的多模态模型,具备图像与视频的理解、生成和编辑能力。该模型采用双流混合专家架构,提升了文本、图像和视频任务的生成质量和语义理解能力。

字节开源 Lance,3B 模型包揽理解/生成/编辑;新加坡国立大学提出 ViMU 数据集:涵盖 588 个视频与无提示问答

HyperAI超神经
HyperAI超神经 · 2026-05-29T06:13:08Z
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

PRISM团队的研究表明,监督微调(SFT)并未促进强化学习(RL),反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程,强调在多模态模型中,SFT引入的分布偏差需要单独处理。通过对抗博弈对齐分布,PRISM显著提升了模型在推理任务上的表现,修复了SFT的副作用。

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

量子位
量子位 · 2026-05-17T03:42:11Z
开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测

SenseNova U1 是商汤发布的开源多模态模型,具备连续图文生成能力,能够同时生成文字和图片。该模型在信息图生成方面表现出色,采用 NEO-unify 架构,提升了生成效率和理解能力,适合创作者和开发者使用。SenseNova U1 的开源版本已在 GitHub 和 Hugging Face 上发布。

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测

爱范儿
爱范儿 · 2026-04-29T11:01:42Z
从智能驾驶到「智能一切移动」,卓驭想做移动物理 AI 的底层基座丨北京车展

智能驾驶行业正在快速变革,卓驭科技在北京车展推出原生多模态基础模型,旨在提升移动物理 AI 能力,支持多种载体的智能化。该模型通过预训练理解物理世界,降低不同场景的适配成本,推动智能驾驶从乘用车向商用车和无人配送扩展。卓驭已与多家车企合作,计划在2026年前实现多种车型的量产。

从智能驾驶到「智能一切移动」,卓驭想做移动物理 AI 的底层基座丨北京车展

爱范儿
爱范儿 · 2026-04-26T09:13:53Z
在线教程丨小身材大「码」力,Qwen3.6-27B编程能力达旗舰级

Qwen团队推出了新版本Qwen3.6-27B,这是一个拥有270亿参数的多模态模型,支持视觉和文本理解。该模型在多个编程基准测试中表现优异,超越了前代版本,并在推理任务上取得了高分。HyperAI官网提供了快速部署该模型的教程。

在线教程丨小身材大「码」力,Qwen3.6-27B编程能力达旗舰级

HyperAI超神经
HyperAI超神经 · 2026-04-24T07:17:55Z
起底 GPT Image 2 团队后,我扒出了一张华人师徒网

GPT Image 2 的研发团队由 13 名核心成员组成,华人占据重要位置。团队成员背景多样,涵盖深度学习和多模态模型研究,形成紧密的信任网络,促进了创新,强调了人际关系在 AI 领域的重要性。

起底 GPT Image 2 团队后,我扒出了一张华人师徒网

爱范儿
爱范儿 · 2026-04-23T08:38:36Z
苹果在ICLR 2026的机器学习研究

苹果在ICLR 2026会议上展示了多项机器学习研究,包括高效的递归神经网络训练、状态空间模型工具、统一的多模态模型Manzano,以及蛋白质折叠的新方法SimpleFold。这些研究旨在推动AI和ML领域的进步,并支持相关社区。

苹果在ICLR 2026的机器学习研究

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-22T00:00:00Z
学习下大神的知识库

本文讨论了如何将PDF文档整理成Markdown格式的知识库,重点在于创建目录和存放原始文档。使用多模态模型Claude进行知识库的设计和整理,确保章节和小节的正确性,并进行抽检。最终生成了包含21章、118节和265个小节的知识库骨架,保留了教材主线并清洗了部分噪声。

学习下大神的知识库

Nicksxs's Blog
Nicksxs's Blog · 2026-04-12T14:20:48Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东探索研究院开源了多模态基础模型JoyAI-Image-Edit,支持文生图、图像理解和指令引导的图像编辑。该模型实现了像素级精细化编辑和空间智能,解决了理解与生成之间的“空间断层”,在空间理解和编辑能力上达到世界一流水平,广泛应用于电商、具身智能和3D重建等领域,显著提升创意验证效率。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和立体感,适用于电商、具身智能和3D重建等领域,显著提升创意验证效率。开发者可在HuggingFace或Github获取该模型。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和立体感。该模型突破了理解与生成的空间断层,支持视角变换、空间漫游和物体关系操控,适用于电商、具身智能和3D重建等领域,显著降低成本和提高效率。开发者可在HuggingFace或Github获取该模型。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态模型JoyAI-Image-Edit支持文生图、图像理解和空间编辑,具备像素级编辑和立体感,提升了空间编辑能力,适用于电商、具身智能和3D重建等领域,推动AI图像编辑向空间重塑发展。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和空间感知能力,解决了理解与生成之间的“空间断层”。该模型在生成与理解的深度融合、空间编辑的范式突破和多场景高性能表现方面具有技术优势,广泛应用于电商、具身智能和3D重建等领域,提升创意验证效率。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和空间感知能力,适用于电商、具身智能和3D重建等领域,提升创意验证效率。开发者可在HuggingFace或Github获取该模型。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和空间感知能力,适用于电商、具身智能和3D重建等领域,显著提升创意验证效率。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和空间感知能力,适用于电商、具身智能和3D重建等领域,提升创意验证效率。开发者可在HuggingFace或Github获取该模型。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码