小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
具身龙虾,上车理想

理想推出StreamingClaw框架,实现实时多模态交互,具身智能能够主动感知环境并作出反应。该系统通过增量计算和多代理协作,提高感知、决策和执行效率,支持复杂任务的实时处理,未来将整合更多模态,提供更真实的交互体验。

具身龙虾,上车理想

量子位
量子位 · 2026-04-05T04:52:36Z
阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro

阿里发布的Qwen3.5-Omni超越Gemini-3.1 Pro,成为全球最强全模态大模型。该模型支持113种语言,具备音视频理解与实时交互能力,能够生成复杂产品代码,提升视频处理效率,降低企业内容管理成本。

阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro

量子位
量子位 · 2026-03-30T14:21:45Z
国产玩家亮剑世界模型!把全模态卷到顶后,天工AI不藏了

天工AI在中关村论坛发布了三款多模态模型Matrix-Game 3.0、SkyReels V4和Mureka V9,标志着其向AI平台经济的迈进。这些模型在游戏、视频和音乐领域实现了实时交互和高质量生成,构建了可交互的世界模型。天工AI的“3+1战略”旨在整合这些能力,推动AI内容的规模化生产。

国产玩家亮剑世界模型!把全模态卷到顶后,天工AI不藏了

量子位
量子位 · 2026-03-27T14:08:24Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
OpenAI向部分活跃的Codex用户推出GPT-5.3-Codex-Spark 吐词速度每秒1000个Token

OpenAI 向部分活跃的 Codex 用户推出了 GPT-5.3-Codex-Spark 模型,具备每秒生成 1000 个 Token 的高速性能。该模型仅限 ChatGPT Plus 订阅者测试,支持实时交互,优化开发者体验。

OpenAI向部分活跃的Codex用户推出GPT-5.3-Codex-Spark 吐词速度每秒1000个Token

蓝点网
蓝点网 · 2026-03-03T13:07:12Z

谷歌DeepMind于2025年发布了Genie 3,这是首个实时交互式通用世界模型。它能够通过文本提示生成可交互的3D环境,具备自回归生成架构和物理理解能力,支持多种场景类型,应用于智能体训练、教育和创意娱乐。尽管存在一些局限性,但其技术进步被视为通往通用人工智能的重要一步。

DeepMind Genie 3 研究:实时交互式 3D 世界模型的重大突破

Micropaper
Micropaper · 2026-02-28T12:35:00Z

DeepMind 发布了 Genie 3,这是首个实时交互式世界模型,能够根据文本生成可导航的 3D 环境。其特点包括实时交互、世界记忆和可提示事件,适用于游戏、AI 研究和教育。尽管存在一些局限性,Genie 3 代表了 AI 生成互动世界的重要进展。

Genie 3: DeepMind 发布首个实时交互式世界模型

Micropaper
Micropaper · 2026-02-28T12:34:00Z

本文探讨了如何在Catalyst应用中集成websockets,提升用户体验。通过创建新控制器和采用事件驱动设计,实现了与客户的实时交互,无需重写现有代码。

Catalyst中的Websockets

blogs.perl.org
blogs.perl.org · 2026-02-20T21:39:39Z
五大超快速大语言模型API服务商

开源大语言模型服务商突破了速度限制,提供低延迟和高性能,适合实时交互和长时间编码任务。Groq的语言处理单元显著提升响应速度,Cerebras、Groq、SambaNova、Fireworks AI和Baseten是当前表现突出的五大API提供商,各具优势和应用场景。

五大超快速大语言模型API服务商

KDnuggets
KDnuggets · 2026-02-16T13:00:19Z
MAF快速入门(16)用户智能体交互协议AG-UI(上)

本文介绍了AG-UI(智能体-用户交互协议)的概念及其在MAF中的应用,旨在优化AI智能体与用户界面的实时交互,提供流式响应和状态同步机制。文章还比较了AG-UI与MCP、A2A协议,并展示了AG-UI对话应用的快速开发方法。

MAF快速入门(16)用户智能体交互协议AG-UI(上)

dotNET跨平台
dotNET跨平台 · 2026-02-14T00:02:47Z

蚂蚁集团推出的医疗AI大模型“蚂蚁·安诊儿”开源后迅速登顶多项医疗榜单,具备超过200 tokens/s的推理速度,专为真实医疗场景设计,支持中小型医疗机构的实时交互。该模型在医疗知识问答和复杂推理方面表现优异,推动医疗AI的实际应用。

蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA

量子位
量子位 · 2026-01-09T12:10:44Z
交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

腾讯混元团队推出的WorldPlay是一个实时交互的世界模型,解决了生成速度与内存占用之间的平衡。该模型通过双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,实现了长期几何一致性,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力。

交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经
HyperAI超神经 · 2026-01-06T13:04:18Z
交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

腾讯混元团队推出的世界模型WorldPlay,实现了实时交互式世界建模,解决了生成速度与内存占用的平衡问题。该模型采用双重动作表示法、重构上下文记忆机制和情境强迫蒸馏方法,能够以24 FPS生成720p高清流媒体视频,展现出优秀的泛化能力,为具身智能和游戏开发等领域开辟了新前景。

交互式世界建模新方案!腾讯混元发布世界模型WorldPlay,兼顾实时生成与长期几何一致性;5万条样本!Med-Banana-50K支持增删病灶双向编辑

HyperAI超神经
HyperAI超神经 · 2026-01-05T03:06:38Z
如何使用FastMCP构建您的第一个MCP服务器

模型上下文协议(MCP)改变了大型语言模型与外部系统的连接方式。FastMCP是一个快速框架,简化了MCP服务器的构建,支持数据资源、工具操作和提示定义,使开发者能够轻松创建和部署MCP服务器,实现与语言模型的实时交互。

如何使用FastMCP构建您的第一个MCP服务器

freeCodeCamp.org
freeCodeCamp.org · 2025-12-03T17:17:30Z

OpenAI于11月19日发布了GPT-5.1-Codex-Max模型,提升了长程推理和实时交互能力,准确率达到77.9%。该模型引入了Compaction机制,优化了token利用率,降低了成本与延迟。Google也推出了Nano Banana Pro模型,具备更强的推理和实时知识整合能力,支持多种创意编辑工具。

派早报:OpenAI 发布 GPT-5.1-Codex-Max 模型等

少数派
少数派 · 2025-11-21T00:51:07Z

美团推出开源AI模型LongCat-Flash-Omni,支持多模态输入,具备高效推理能力,实时交互流畅,表现优异,旨在实现数字与物理世界的深度连接。

美团新独立APP,点不了菜只能点AI

量子位
量子位 · 2025-11-03T03:42:30Z
如何使用开源工具构建语音AI代理

语音是对话AI的新前沿。OpenAI等实验室已推出实时语音服务,但语音应用对延迟、隐私和定制化的要求较高。本文探讨如何利用开源技术创建自定义语音AI代理,结合自有知识库和模型。EchoKit服务器协调多个AI模型,支持实时语音交互。

如何使用开源工具构建语音AI代理

freeCodeCamp.org
freeCodeCamp.org · 2025-10-21T19:01:36Z
Agent设计模式——第 5 章:工具使用(函数调用)

工具使用模式使代理能够与外部系统实时交互,通过函数调用根据用户请求决定使用工具,生成结构化调用并执行,最终返回结果。这种模式扩展了大型语言模型的能力,适用于多种应用场景。

Agent设计模式——第 5 章:工具使用(函数调用)

XINDOO的博客
XINDOO的博客 · 2025-10-04T15:58:55Z
Agora(声网)荣获 2025 API 世界大会最佳通信 API

声网(Agora, Inc.)在2025年API大奖中荣获“最佳通信API”奖,表彰其基于软件定义实时网络(SDRTN®)的对话式AI引擎,支持超低延迟和高质量实时交互,助力开发者构建多种语音AI应用。

Agora(声网)荣获 2025 API 世界大会最佳通信 API

实时互动网
实时互动网 · 2025-09-09T03:05:45Z
技术洞察:音频驱动口型生成技术解析 | 咪咕灯塔智库

在AIGC时代,音频驱动口型生成技术通过算法将音频信号转化为唇形动画,提升了数字人和影视动画的沉浸感,广泛应用于实时交互、游戏角色动态演绎及影视配音,重塑数字内容制作体验。

技术洞察:音频驱动口型生成技术解析 | 咪咕灯塔智库

实时互动网
实时互动网 · 2025-08-19T03:56:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码