小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Modular:零日:MiniMax M3在Modular云上的开放权重

MiniMax M3是最新的开源模型,优化了编码和多模态任务。其稀疏注意力机制显著提高了计算效率,减少了每个令牌的计算需求,提升了速度。该模型在Modular平台上可供企业客户使用,支持实时患者对话的灵活推理。

Modular:零日:MiniMax M3在Modular云上的开放权重

Modular Blog
Modular Blog · 2026-06-11T00:00:00Z

谷歌将在夏季推出珊瑚AI开发板,支持本地运行270M模型,实现实时对话、语音对话、文本和音乐生成等功能。该开发板配备1TOPS算力的NPU芯片,使用2GB内存,支持WiFi和蓝牙连接。由于芯片供给紧张,预计售价不会低。

谷歌将在夏季推出珊瑚AI开发板 可在本地运行270M模型实现实时语音对话/翻译等

蓝点网
蓝点网 · 2026-05-28T03:45:51Z
通过API中的新模型推动语音智能发展

OpenAI推出了三种音频模型,分别是GPT-Realtime-2(实时对话)、GPT-Realtime-Translate(支持70多种语言的实时翻译)和GPT-Realtime-Whisper(低延迟语音转文本)。这些模型提升了语音交互的智能性和响应能力,适用于客户支持和教育等领域。

通过API中的新模型推动语音智能发展

OpenAI
OpenAI · 2026-05-07T10:00:00Z

Voxtral TTS是Mistral AI推出的开源文本转语音模型,支持九种语言,能够在三秒音频基础上克隆声音,具有70毫秒的低延迟和9.7倍的实时因子,适合实时对话应用。用户可通过Mistral API或自托管方式使用,提供灵活的商业和非商业使用选项。

Voxtral TTS开源文本转语音模型

KDnuggets
KDnuggets · 2026-05-01T12:00:09Z

谷歌翻译成立20年来,致力于消除语言障碍,促进理解,支持近250种语言,每月有超过10亿用户使用。新推出的发音练习工具帮助用户提高口语能力,翻译不仅用于旅行,也成为学习新语言的重要工具。AI技术的应用使翻译更加自然流畅,用户可以实时对话,增强交流体验。

庆祝谷歌翻译成立20周年:有趣的事实、技巧和新功能推荐

The Keyword
The Keyword · 2026-04-28T16:00:00Z
Cloudflare 为 AI 代理添加实时语音功能

Cloudflare 为其 AI Agent SDK 引入语音功能,支持实时对话,通过 @cloudflare/voice 包实现语音输入和文本转语音。开发者可以利用持久对象基础架构保持对话历史,并通过 WebSocket 连接实现低延迟交互,旨在提供更自然的多模态 AI 体验。

Cloudflare 为 AI 代理添加实时语音功能

实时互动网
实时互动网 · 2026-04-16T03:40:57Z

谷歌推出了Gemini 3.1 Flash Live,这是其最高质量的音频模型,旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用,企业可用于客户体验,用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色,能够在嘈杂环境中提供更自然的对话,所有生成的音频都带有水印,以防止虚假信息传播。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

Google DeepMind Blog
Google DeepMind Blog · 2026-03-26T15:23:35Z
LLM上下文窗口:理解与优化工作记忆

LLM的上下文窗口是模型一次处理的最大文本量,受自注意力机制和GPU内存带宽限制。现代模型的上下文窗口已扩展至128K-2M标记,但较小的窗口在实时对话和特定任务中表现更佳。在生产环境中,语义缓存和检索增强生成等策略能有效提升性能。

LLM上下文窗口:理解与优化工作记忆

Redis Blog
Redis Blog · 2026-01-23T00:00:00Z

谷歌搜索推出Gemini音频模型,用户可通过语音与AI实时对话,获得更自然的回答。只需在谷歌应用中点击Live图标提问,便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。

现在,您在使用搜索时可以进行更流畅、更富表现力的对话。

The Keyword
The Keyword · 2025-12-12T17:00:00Z

谷歌翻译推出新功能,利用AI实现实时对话翻译和个性化语言学习。用户可在70多种语言中进行自然对话,应用程序智能识别语音和停顿。新的练习功能根据用户水平定制听说练习,提升翻译质量和用户体验。

谷歌翻译推出新款AI驱动的实时翻译和语言学习工具

The Keyword
The Keyword · 2025-08-26T16:00:00Z

本研究提出了一种多模态模型MM-When2Speak,旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息,能够准确预测何时及如何回应。实验结果表明,其在响应时机的准确性上显著优于现有模型,强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

中国科学院计算技术研究所推出的LLaMA-Omni2是一个支持语音的大型语言模型,结合语音感知与语言理解,实现实时口语对话。该模型采用端到端流水线,训练成本低且具有模块化可解释性。在200K语音对话样本上训练后,LLaMA-Omni2的表现优于基线模型,证明高质量、低延迟的语音交互无需大量语料库。

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

实时互动网
实时互动网 · 2025-05-07T02:28:07Z

本研究提出VITA-Audio,一种高效的大规模语音模型,解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块,该模型显著提高了推理速度,具备实时对话能力,并在多个任务中表现优异。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

三月,我们推出了与Gemini实时对话的功能,支持45种语言。用户可通过摄像头或屏幕分享,获得整理空间、创意头脑风暴、故障排除、购物建议和技能反馈等帮助。该功能已在Pixel 9和Samsung Galaxy S25设备上推广。

使用Gemini实时对话的五种方法:通过摄像头和屏幕分享

The Keyword
The Keyword · 2025-04-07T12:00:00Z
远程桌面新选择:完全自托管,安全无忧! | 开源日报 No.541

open_deep_research 是一款网络研究助手,支持自定义报告生成和模型选择。OpenROAD 实现快速半导体设计转换,WhisperFusion 提供实时对话体验,rustdesk 是安全的远程桌面应用,vue-office 支持多种文档预览。

远程桌面新选择:完全自托管,安全无忧! | 开源日报 No.541

开源服务指南
开源服务指南 · 2025-03-19T15:44:40Z

米哈游创始人蔡浩宇的AI游戏《Whispers From The Star》已曝光,主打实时对话与玩家互动,玩家的选择将影响角色Stella的命运。目前已开启内测,仅支持iOS 12以上设备,旨在验证多模态AI的实时交互能力。

米哈游蔡浩宇AI游戏曝光:大模型驱动数字人实时互动,玩家自定义开放剧情,内测已开启!

量子位
量子位 · 2025-03-15T14:05:40Z
使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

本文介绍了如何增强AI助手的功能,包括多代理工作流、长期记忆和实时对话,使其能够更自然地处理用户交互。

使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

DEV Community
DEV Community · 2025-02-17T21:06:35Z
端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

MiniCPM-o 是一款多模态大语言模型,支持图像、视频、文本和音频输入,具备实时双语对话和情感控制功能。最新版本 MiniCPM-o 2.6 拥有 8 亿参数,性能与 GPT-4o 相当。RealtimSTT 提供低延迟语音转文本功能,适合实时应用。copilot-codespaces-vscode 提供 AI 驱动的代码建议,提升开发效率。Chainlit 是一个开源 Python 框架,便于快速构建对话式 AI 应用。

端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

开源服务指南
开源服务指南 · 2025-01-25T03:23:31Z
商汤「日日新融合大模型交互版」开放商用,限时免费!

商汤科技推出的SenseNova-5o是一款强大的AI交互模型,支持实时音视频对话、视觉识别和记忆能力,具备多轮对话和个性化设置,已在多种智能设备上应用,提升用户体验,现限时免费。

商汤「日日新融合大模型交互版」开放商用,限时免费!

实时互动网
实时互动网 · 2025-01-20T06:07:30Z
端侧版GPT-4o问世,面壁小钢炮实现端到端、全模态实时对话

面壁智能推出的MiniCPM-o 2.6是最新的8B参数多模态大模型,性能接近GPT-4o,支持双语语音识别和实时对话,具备出色的视觉和语音处理能力,适用于多种设备,并在语音理解和生成方面实现开源SOTA,推动端侧AI发展。

端侧版GPT-4o问世,面壁小钢炮实现端到端、全模态实时对话

机器之心
机器之心 · 2025-01-16T09:33:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码