小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程丨最高4倍生成速度提升,DiffusionGemma可同时生成整块文本,基于多轮并行去噪持续优化结果

Google于6月11日开源了基于离散扩散技术的文本生成模型DiffusionGemma。该模型具有高效的生成速度,能够以最高1100 Token/s的速度同时生成整个文本块,采用26B参数的混合专家设计,支持256K Token长上下文和多模态输入。尽管标准版Gemma 4在生成质量上更优,DiffusionGemma展示了新的发展方向。

在线教程丨最高4倍生成速度提升,DiffusionGemma可同时生成整块文本,基于多轮并行去噪持续优化结果

HyperAI超神经
HyperAI超神经 · 2026-06-12T10:10:12Z
一键调用!京东云率先上线MiniMax M3

今日,MiniMax M3正式上线,京东云JoyBuilder平台已接入该模型,提升推理效率。MiniMax M3支持1M超长上下文和多模态输入能力。京东云提供高性能推理服务,帮助企业快速应用大模型,提升运维效率,未来将深化合作,构建开放的AI生态。

一键调用!京东云率先上线MiniMax M3

京东科技开发者
京东科技开发者 · 2026-06-11T01:48:55Z
教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

第三方评测机构Artificial Analysis发布报告称,Qwen3.5 27B和Gemma 4 31B在智能水平上接近GPT-5。Qwen3.5在推理能力上表现优异,但知识准确性仍有不足。两款模型支持多模态输入,适合本地部署,降低使用门槛。Gemma 4系列在多种应用场景中表现出色,具备强大的推理和语言处理能力。

教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型

HyperAI超神经
HyperAI超神经 · 2026-04-17T05:04:36Z

Transformer 将进化为混合架构,结合注意力机制、长程状态和外部记忆等模块,以更高效地处理信息并支持多模态输入。硬件发展将影响架构设计,评估方式将变得复杂,强调系统协作和可控性。理解 Transformer 的成功在于其抽象层次和应对未来挑战的能力。

【Transformer 与注意力机制】58|后 Transformer 时代:架构会消失还是会进化

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
AI开始直接交付Excel,千问用Agent重构做表流程

千问推出“表格Agent”,用户可以通过自然语言直接生成和编辑Excel文件。该功能支持自动信息检索和多轮对话,能够处理PDF和图片等多模态输入,生成结构化表格。用户只需简单提问,即可获得可下载的Excel文件,提升了表格处理的易用性。

AI开始直接交付Excel,千问用Agent重构做表流程

量子位
量子位 · 2026-04-14T02:48:22Z

谷歌推出Gemma 4系列模型,基于Gemini 3技术,体积小巧,适用于智能手机等边缘设备。该模型支持多模态输入,优化了参数效率和上下文长度,性能接近Kimi-K2.5。Gemma 4采用Apache 2.0开源许可证,允许商业使用,旨在为安卓设备的AI化做好准备。

谷歌开源发布Gemma 4系列模型 体积更小但提供类似Kimi-K2.5的智能

蓝点网
蓝点网 · 2026-04-03T01:40:25Z
实测即梦 Seedance 2.0:老外急着想注册,这就是中国 AI 视频的「黑神话」时刻

Seedance 2.0 是一款先进的中国 AI 视频生成模型,支持多模态输入,能够高效生成高质量视频,解决了传统模型的诸多问题。用户只需上传素材,AI 即可自动生成复杂场景和动作,提升创作便利性。尽管引发了关于视频真实性的伦理讨论,Seedance 2.0 的强大功能使其成为视频创作的新标杆。

实测即梦 Seedance 2.0:老外急着想注册,这就是中国 AI 视频的「黑神话」时刻

爱范儿
爱范儿 · 2026-02-11T09:57:56Z
马建仓 AI 助手再进化:懂场景,也懂老板,但更懂你

Gitee 企业版推出马建仓 AI 助手,优化了任务入口整合、多模态输入和角色理解,提升了使用效率和需求描述灵活性。未来将推出“AI 队友”功能,增强协作体验。

马建仓 AI 助手再进化:懂场景,也懂老板,但更懂你

Gitee 官方博客
Gitee 官方博客 · 2026-01-23T08:14:44Z
MAI-UI - A GUI-centric agent framework supporting models ranging from 2B to 235B to build …

文章讨论了MAI-UI智能体框架,该框架以图形界面为中心,支持从小型到超大规模模型(2B至235B)的交互体验,旨在将基础模型能力应用于真实世界任务,提供设备与云的协同、事件感知和多模态输入支持。

MAI-UI - A GUI-centric agent framework supporting models ranging from 2B to 235B to build …

云原生
云原生 · 2026-01-09T09:51:26Z
今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

Marble是新发布的3D世界生成模型,支持文本和图片输入,用户可以生成完整的3D场景并进行深度编辑,提供多种导出格式。其多模态输入和编辑能力超越现有工具,降低了3D建模的门槛。李飞飞强调空间智能的重要性,Marble旨在让AI理解三维空间。

今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

爱范儿
爱范儿 · 2025-11-13T00:52:21Z
在线教程丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验

AI生成的视频越来越真实,但仍面临“恐怖谷”效应。清华大学与字节跳动推出的HuMo框架,通过多模态输入和渐进式训练,提升视频生成效果,解决声音、表情与动作的协同问题,适合创作者和开发者使用。

在线教程丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验

HyperAI超神经
HyperAI超神经 · 2025-10-23T06:03:47Z
在DigitalOcean Gradient™ AI平台上,利用图像生成、自动索引、虚拟私有云安全性和新AI工具构建更智能的代理

在2025年Deploy London大会上,Gradient AI平台推出新功能,简化AI应用开发,支持多模态输入,包括图像模型和知识库自动索引。企业可通过虚拟私有云(VPC)提升安全性,Gradient AI代理开发工具包(ADK)和Genie将帮助开发者高效构建多代理系统。

在DigitalOcean Gradient™ AI平台上,利用图像生成、自动索引、虚拟私有云安全性和新AI工具构建更智能的代理

The DigitalOcean Blog
The DigitalOcean Blog · 2025-10-02T07:12:50Z
Gemini 2.5 Deep Think 实现创造性问题解决的平行化

谷歌的Gemini 2.5 Deep Think模型通过平行思维技术解决创造性问题,在2025年国际数学奥林匹克中表现优异,获得金牌。新版本在推理深度和速度之间取得平衡,适合日常使用,采用新型强化学习技术,支持多模态输入,尽管存在查询限制,但在多个基准测试中表现出色。

Gemini 2.5 Deep Think 实现创造性问题解决的平行化

InfoQ
InfoQ · 2025-08-18T09:00:00Z

本文分析了π0模型在机器人控制中的应用,重点介绍了模型的配置、训练、推理及注意力机制优化,并强调了与LeRobot框架的集成及多模态输入处理。

LeRobot pi0——LeRobot对VLA策略π0的封装:含其源码剖析与真机部署(智能化程度高于ACT)

结构之法 算法之道
结构之法 算法之道 · 2025-06-01T16:04:13Z
第五天:结构化输出与多模态——LangChain的AI精准与强大的节日融合!

结构化输出为AI提供了秩序,LangChain简化了多模态输入(文本、图像、音频等)的处理,提升了工作效率和一致性,便于API连接。

第五天:结构化输出与多模态——LangChain的AI精准与强大的节日融合!

DEV Community
DEV Community · 2025-05-28T04:11:38Z
如何通过Cursor免费使用Grok 3

xAI的Grok 3在AI开发中表现突出,具备强大功能。Cursor集成了Grok 3和Grok 3 Mini,开发者可免费使用。Grok 3在推理能力上显著提升,支持多模态输入,用户可通过Cursor轻松启用Grok 3 Mini,提高编程效率。

如何通过Cursor免费使用Grok 3

DEV Community
DEV Community · 2025-05-15T15:41:17Z

本研究探讨了视觉语言模型在理解虚拟物体方面的不足,测试了AI系统的场景理解能力,发现其在处理虚拟对象时表现不佳,揭示了多模态输入处理的局限性。

Challenges of Visual Language Models in Recognizing Virtual Objects

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z
RAG已死?Gemini 2.0 Flash彻底改变了一切!

随着Gemini 2.0 Flash的推出,检索增强生成(RAG)的必要性受到质疑。Gemini 2.0 Flash具备实时文档搜索和多模态输入处理,能够直接处理大文档,提升用户体验。尽管RAG在复杂系统中仍有应用,但未来可能会被更高效的模型取代。

RAG已死?Gemini 2.0 Flash彻底改变了一切!

DEV Community
DEV Community · 2025-05-13T04:36:06Z
Midjourney 7与GPT-Image-1:有什么区别?

Midjourney 7和GPT-Image-1是两种先进的AI图像生成工具。Midjourney 7侧重艺术表现和个性化,适合创意探索;而GPT-Image-1强调多模态输入和API集成,适合设计师和开发者。两者在生成速度、成本和功能上各有优势,用户可根据需求选择合适的工具。

Midjourney 7与GPT-Image-1:有什么区别?

DEV Community
DEV Community · 2025-05-07T11:33:41Z
演讲:生成性AI提升生产力

Wealthsimple通过生成性AI提升生产力,涵盖员工生产力、客户优化和LLM平台。构建安全的LLM网关和自托管模型,提升用户体验和操作效率。2024年,策略将更注重业务对齐,关注多模态输入和购买策略,继续优化内部工具和客户体验。

演讲:生成性AI提升生产力

InfoQ
InfoQ · 2025-04-21T20:50:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码