小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

谷歌翻译成立20年来,致力于消除语言障碍,促进理解,支持近250种语言,每月有超过10亿用户使用。新推出的发音练习工具帮助用户提高口语能力,翻译不仅用于旅行,也成为学习新语言的重要工具。AI技术的应用使翻译更加自然流畅,用户可以实时对话,增强交流体验。

庆祝谷歌翻译成立20周年:有趣的事实、技巧和新功能推荐

The Keyword
The Keyword · 2026-04-28T16:00:00Z
Cloudflare 为 AI 代理添加实时语音功能

Cloudflare 为其 AI Agent SDK 引入语音功能,支持实时对话,通过 @cloudflare/voice 包实现语音输入和文本转语音。开发者可以利用持久对象基础架构保持对话历史,并通过 WebSocket 连接实现低延迟交互,旨在提供更自然的多模态 AI 体验。

Cloudflare 为 AI 代理添加实时语音功能

实时互动网
实时互动网 · 2026-04-16T03:40:57Z

谷歌推出了Gemini 3.1 Flash Live,这是其最高质量的音频模型,旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用,企业可用于客户体验,用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色,能够在嘈杂环境中提供更自然的对话,所有生成的音频都带有水印,以防止虚假信息传播。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

Google DeepMind Blog
Google DeepMind Blog · 2026-03-26T15:23:35Z
LLM上下文窗口:理解与优化工作记忆

LLM的上下文窗口是模型一次处理的最大文本量,受自注意力机制和GPU内存带宽限制。现代模型的上下文窗口已扩展至128K-2M标记,但较小的窗口在实时对话和特定任务中表现更佳。在生产环境中,语义缓存和检索增强生成等策略能有效提升性能。

LLM上下文窗口:理解与优化工作记忆

Redis Blog
Redis Blog · 2026-01-23T00:00:00Z

谷歌搜索推出Gemini音频模型,用户可通过语音与AI实时对话,获得更自然的回答。只需在谷歌应用中点击Live图标提问,便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。

现在,您在使用搜索时可以进行更流畅、更富表现力的对话。

The Keyword
The Keyword · 2025-12-12T17:00:00Z

谷歌翻译推出新功能,利用AI实现实时对话翻译和个性化语言学习。用户可在70多种语言中进行自然对话,应用程序智能识别语音和停顿。新的练习功能根据用户水平定制听说练习,提升翻译质量和用户体验。

谷歌翻译推出新款AI驱动的实时翻译和语言学习工具

The Keyword
The Keyword · 2025-08-26T16:00:00Z

本研究提出了一种多模态模型MM-When2Speak,旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息,能够准确预测何时及如何回应。实验结果表明,其在响应时机的准确性上显著优于现有模型,强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

中国科学院计算技术研究所推出的LLaMA-Omni2是一个支持语音的大型语言模型,结合语音感知与语言理解,实现实时口语对话。该模型采用端到端流水线,训练成本低且具有模块化可解释性。在200K语音对话样本上训练后,LLaMA-Omni2的表现优于基线模型,证明高质量、低延迟的语音交互无需大量语料库。

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

实时互动网
实时互动网 · 2025-05-07T02:28:07Z

本研究提出VITA-Audio,一种高效的大规模语音模型,解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块,该模型显著提高了推理速度,具备实时对话能力,并在多个任务中表现优异。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

三月,我们推出了与Gemini实时对话的功能,支持45种语言。用户可通过摄像头或屏幕分享,获得整理空间、创意头脑风暴、故障排除、购物建议和技能反馈等帮助。该功能已在Pixel 9和Samsung Galaxy S25设备上推广。

使用Gemini实时对话的五种方法:通过摄像头和屏幕分享

The Keyword
The Keyword · 2025-04-07T12:00:00Z
远程桌面新选择:完全自托管,安全无忧! | 开源日报 No.541

open_deep_research 是一款网络研究助手,支持自定义报告生成和模型选择。OpenROAD 实现快速半导体设计转换,WhisperFusion 提供实时对话体验,rustdesk 是安全的远程桌面应用,vue-office 支持多种文档预览。

远程桌面新选择:完全自托管,安全无忧! | 开源日报 No.541

开源服务指南
开源服务指南 · 2025-03-19T15:44:40Z

米哈游创始人蔡浩宇的AI游戏《Whispers From The Star》已曝光,主打实时对话与玩家互动,玩家的选择将影响角色Stella的命运。目前已开启内测,仅支持iOS 12以上设备,旨在验证多模态AI的实时交互能力。

米哈游蔡浩宇AI游戏曝光:大模型驱动数字人实时互动,玩家自定义开放剧情,内测已开启!

量子位
量子位 · 2025-03-15T14:05:40Z
使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

本文介绍了如何增强AI助手的功能,包括多代理工作流、长期记忆和实时对话,使其能够更自然地处理用户交互。

使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

DEV Community
DEV Community · 2025-02-17T21:06:35Z
端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

MiniCPM-o 是一款多模态大语言模型,支持图像、视频、文本和音频输入,具备实时双语对话和情感控制功能。最新版本 MiniCPM-o 2.6 拥有 8 亿参数,性能与 GPT-4o 相当。RealtimSTT 提供低延迟语音转文本功能,适合实时应用。copilot-codespaces-vscode 提供 AI 驱动的代码建议,提升开发效率。Chainlit 是一个开源 Python 框架,便于快速构建对话式 AI 应用。

端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

开源服务指南
开源服务指南 · 2025-01-25T03:23:31Z
商汤「日日新融合大模型交互版」开放商用,限时免费!

商汤科技推出的SenseNova-5o是一款强大的AI交互模型,支持实时音视频对话、视觉识别和记忆能力,具备多轮对话和个性化设置,已在多种智能设备上应用,提升用户体验,现限时免费。

商汤「日日新融合大模型交互版」开放商用,限时免费!

实时互动网
实时互动网 · 2025-01-20T06:07:30Z
端侧版GPT-4o问世,面壁小钢炮实现端到端、全模态实时对话

面壁智能推出的MiniCPM-o 2.6是最新的8B参数多模态大模型,性能接近GPT-4o,支持双语语音识别和实时对话,具备出色的视觉和语音处理能力,适用于多种设备,并在语音理解和生成方面实现开源SOTA,推动端侧AI发展。

端侧版GPT-4o问世,面壁小钢炮实现端到端、全模态实时对话

机器之心
机器之心 · 2025-01-16T09:33:00Z
Threads开始测试定时发布功能

Threads正在测试定时发布功能,Instagram的亚当·莫塞里表示,回复无法定时发布,以保持实时对话的活力。该功能旨在帮助用户更好地规划帖子,同时鼓励即时交流。目前,Threads的每日活跃用户超过1亿,月活跃用户超过3亿。

Threads开始测试定时发布功能

The Verge
The Verge · 2024-12-17T21:33:59Z

OpenAI推出了名为圣诞模式的视频通话功能,支持实时对话和屏幕共享,用户可通过摄像头与ChatGPT互动,体验低延迟交流。该功能将逐步在移动应用中开放,受到用户关注。

OpenAI版《Her》全量来袭:实时视频对话,你每个动作AI都看得见

量子位
量子位 · 2024-12-12T20:17:06Z
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列

Fixie AI 推出的 Ultravox v0.4.1 是一款多模态开源模型,支持实时对话,能够处理文本和图像等多种输入,适用于客户支持和教育场景,响应延迟低,性能媲美 GPT-4,促进社区开发和技术民主化。

Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列

实时互动网
实时互动网 · 2024-11-14T03:12:56Z

阿里巴巴推出开源数字人实时对话Demo,支持语音输入和自定义形象,对话延迟低至3秒。该项目采用模块化设计,适用于直播和新闻播报,使用Gradio框架便于快速部署。各模块包括语音识别、语言模型、文本转语音和说话人生成,提升实时对话体验。

开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s

量子位
量子位 · 2024-10-24T06:24:59Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码