小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

谷歌翻译成立20年来,致力于消除语言障碍,促进理解,支持近250种语言,每月有超过10亿用户使用。新推出的发音练习工具帮助用户提高口语能力,翻译不仅用于旅行,也成为学习新语言的重要工具。AI技术的应用使翻译更加自然流畅,用户可以实时对话,增强交流体验。

庆祝谷歌翻译成立20周年:有趣的事实、技巧和新功能推荐

The Keyword
The Keyword · 2026-04-28T16:00:00Z
Cloudflare 为 AI 代理添加实时语音功能

Cloudflare 为其 AI Agent SDK 引入语音功能,支持实时对话,通过 @cloudflare/voice 包实现语音输入和文本转语音。开发者可以利用持久对象基础架构保持对话历史,并通过 WebSocket 连接实现低延迟交互,旨在提供更自然的多模态 AI 体验。

Cloudflare 为 AI 代理添加实时语音功能

实时互动网
实时互动网 · 2026-04-16T03:40:57Z

谷歌推出了Gemini 3.1 Flash Live,这是其最高质量的音频模型,旨在提供更自然、可靠的实时对话。该模型支持开发者通过Gemini Live API使用,企业可用于客户体验,用户可通过Search Live和Gemini Live体验。3.1 Flash Live在理解语调和处理复杂任务方面表现出色,能够在嘈杂环境中提供更自然的对话,所有生成的音频都带有水印,以防止虚假信息传播。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

Google DeepMind Blog
Google DeepMind Blog · 2026-03-26T15:23:35Z
LLM上下文窗口:理解与优化工作记忆

LLM的上下文窗口是模型一次处理的最大文本量,受自注意力机制和GPU内存带宽限制。现代模型的上下文窗口已扩展至128K-2M标记,但较小的窗口在实时对话和特定任务中表现更佳。在生产环境中,语义缓存和检索增强生成等策略能有效提升性能。

LLM上下文窗口:理解与优化工作记忆

Redis Blog
Redis Blog · 2026-01-23T00:00:00Z

谷歌搜索推出Gemini音频模型,用户可通过语音与AI实时对话,获得更自然的回答。只需在谷歌应用中点击Live图标提问,便可享受更好的DIY帮助和学习体验。该功能将在未来一周内向美国用户推出。

现在,您在使用搜索时可以进行更流畅、更富表现力的对话。

The Keyword
The Keyword · 2025-12-12T17:00:00Z

谷歌翻译推出新功能,利用AI实现实时对话翻译和个性化语言学习。用户可在70多种语言中进行自然对话,应用程序智能识别语音和停顿。新的练习功能根据用户水平定制听说练习,提升翻译质量和用户体验。

谷歌翻译推出新款AI驱动的实时翻译和语言学习工具

The Keyword
The Keyword · 2025-08-26T16:00:00Z

本研究提出了一种多模态模型MM-When2Speak,旨在解决大型语言模型在实时对话中的反应时机问题。该模型结合视觉、听觉和文本信息,能够准确预测何时及如何回应。实验结果表明,其在响应时机的准确性上显著优于现有模型,强调了多模态输入在对话AI中的重要性。

Beyond Words: Multimodal Large Language Models Know When to Speak

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

中国科学院计算技术研究所推出的LLaMA-Omni2是一个支持语音的大型语言模型,结合语音感知与语言理解,实现实时口语对话。该模型采用端到端流水线,训练成本低且具有模块化可解释性。在200K语音对话样本上训练后,LLaMA-Omni2的表现优于基线模型,证明高质量、低延迟的语音交互无需大量语料库。

中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话

实时互动网
实时互动网 · 2025-05-07T02:28:07Z

本研究提出VITA-Audio,一种高效的大规模语音模型,解决了现有模型在流媒体生成首个音频令牌时的高延迟问题。通过引入轻量级的多模态交叉令牌预测模块,该模型显著提高了推理速度,具备实时对话能力,并在多个任务中表现优异。

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large-Scale Speech Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

三月,我们推出了与Gemini实时对话的功能,支持45种语言。用户可通过摄像头或屏幕分享,获得整理空间、创意头脑风暴、故障排除、购物建议和技能反馈等帮助。该功能已在Pixel 9和Samsung Galaxy S25设备上推广。

使用Gemini实时对话的五种方法:通过摄像头和屏幕分享

The Keyword
The Keyword · 2025-04-07T12:00:00Z
远程桌面新选择:完全自托管,安全无忧! | 开源日报 No.541

open_deep_research 是一款网络研究助手,支持自定义报告生成和模型选择。OpenROAD 实现快速半导体设计转换,WhisperFusion 提供实时对话体验,rustdesk 是安全的远程桌面应用,vue-office 支持多种文档预览。

远程桌面新选择:完全自托管,安全无忧! | 开源日报 No.541

开源服务指南
开源服务指南 · 2025-03-19T15:44:40Z

米哈游创始人蔡浩宇的AI游戏《Whispers From The Star》已曝光,主打实时对话与玩家互动,玩家的选择将影响角色Stella的命运。目前已开启内测,仅支持iOS 12以上设备,旨在验证多模态AI的实时交互能力。

米哈游蔡浩宇AI游戏曝光:大模型驱动数字人实时互动,玩家自定义开放剧情,内测已开启!

量子位
量子位 · 2025-03-15T14:05:40Z
使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

本文介绍了如何增强AI助手的功能,包括多代理工作流、长期记忆和实时对话,使其能够更自然地处理用户交互。

使用LangGraph、TypeScript、Next.js、TailwindCSS和Pinecone构建AI助手 - 第二部分

DEV Community
DEV Community · 2025-02-17T21:06:35Z
端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

MiniCPM-o 是一款多模态大语言模型,支持图像、视频、文本和音频输入,具备实时双语对话和情感控制功能。最新版本 MiniCPM-o 2.6 拥有 8 亿参数,性能与 GPT-4o 相当。RealtimSTT 提供低延迟语音转文本功能,适合实时应用。copilot-codespaces-vscode 提供 AI 驱动的代码建议,提升开发效率。Chainlit 是一个开源 Python 框架,便于快速构建对话式 AI 应用。

端侧多模态大语言模型:伴随图像、语音和文本的实时对话 | 开源日报 No.490

开源服务指南
开源服务指南 · 2025-01-25T03:23:31Z
商汤「日日新融合大模型交互版」开放商用,限时免费!

商汤科技推出的SenseNova-5o是一款强大的AI交互模型,支持实时音视频对话、视觉识别和记忆能力,具备多轮对话和个性化设置,已在多种智能设备上应用,提升用户体验,现限时免费。

商汤「日日新融合大模型交互版」开放商用,限时免费!

实时互动网
实时互动网 · 2025-01-20T06:07:30Z
端侧版GPT-4o问世,面壁小钢炮实现端到端、全模态实时对话

面壁智能推出的MiniCPM-o 2.6是最新的8B参数多模态大模型,性能接近GPT-4o,支持双语语音识别和实时对话,具备出色的视觉和语音处理能力,适用于多种设备,并在语音理解和生成方面实现开源SOTA,推动端侧AI发展。

端侧版GPT-4o问世,面壁小钢炮实现端到端、全模态实时对话

机器之心
机器之心 · 2025-01-16T09:33:00Z
Threads开始测试定时发布功能

Threads正在测试定时发布功能,Instagram的亚当·莫塞里表示,回复无法定时发布,以保持实时对话的活力。该功能旨在帮助用户更好地规划帖子,同时鼓励即时交流。目前,Threads的每日活跃用户超过1亿,月活跃用户超过3亿。

Threads开始测试定时发布功能

The Verge
The Verge · 2024-12-17T21:33:59Z

OpenAI推出了名为圣诞模式的视频通话功能,支持实时对话和屏幕共享,用户可通过摄像头与ChatGPT互动,体验低延迟交流。该功能将逐步在移动应用中开放,受到用户关注。

OpenAI版《Her》全量来袭:实时视频对话,你每个动作AI都看得见

量子位
量子位 · 2024-12-12T20:17:06Z
Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列

Fixie AI 推出的 Ultravox v0.4.1 是一款多模态开源模型,支持实时对话,能够处理文本和图像等多种输入,适用于客户支持和教育场景,响应延迟低,性能媲美 GPT-4,促进社区开发和技术民主化。

Fixie AI 推出 Ultravox v0.4.1:专为实现与 LLM 实时对话而训练的开放式语音模型系列

实时互动网
实时互动网 · 2024-11-14T03:12:56Z

阿里巴巴推出开源数字人实时对话Demo,支持语音输入和自定义形象,对话延迟低至3秒。该项目采用模块化设计,适用于直播和新闻播报,使用Gradio框架便于快速部署。各模块包括语音识别、语言模型、文本转语音和说话人生成,提升实时对话体验。

开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s

量子位
量子位 · 2024-10-24T06:24:59Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码