小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型

谷歌推出了Gemini 3.5实时翻译模型,支持70多种语言的语音翻译。该模型采用连续流处理,翻译内容滞后几秒,适用于会议和通话场景。开发者可通过Live API配置功能,支持音频输入和输出,未来将应用于Google Meet和Translate应用中。

Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型

实时互动网
实时互动网 · 2026-06-10T02:35:25Z

谷歌推出Gemini 3.5 Live Translate,支持70多种语言的实时语音翻译,自动检测语言并生成自然流畅的翻译语音,适用于会议和通话。该功能在Google Meet和Google Translate应用中逐步推出,提升翻译质量和速度,支持多语言对话,并新增“听模式”,用户可通过手机直接听到翻译内容。

使用Gemini 3.5 Live Translate实现流畅自然的语音翻译

Google DeepMind Blog
Google DeepMind Blog · 2026-06-09T15:16:25Z

谷歌推出Gemini 3.5实时翻译模型,支持70多种语言的语音实时翻译,自动检测语言并生成自然流畅的翻译语音,适用于会议和通话。用户可通过Google Meet和Google Translate应用体验这一新功能,提升多语言沟通效率。

流畅自然的语音翻译:Gemini 3.5实时翻译

The Keyword
The Keyword · 2026-06-09T15:00:00Z
Palabra.ai 推动企业通信实时语音翻译技术在全球范围内的发展

Palabra.ai是一家总部位于伦敦的AI语音翻译公司,年收入在六个月内从6万美元增长到100万美元,显示出实时多语言通信的需求激增。该平台支持超过1000种语言的实时翻译,保留说话者的身份和情感,显著降低多语种会议的成本,并确保数据安全与合规。

Palabra.ai 推动企业通信实时语音翻译技术在全球范围内的发展

实时互动网
实时互动网 · 2026-06-02T06:40:20Z
LWiAI播客第245期 - TML互动、法律领域的Claude、Sam Altman在Stand上的发言

在最新一期播客中,讨论了OpenAI的新语音智能API功能,包括实时翻译和转录。Thinking Machines展示了低延迟对话系统,Anthropic推出了法律领域的Claude产品,并加强了与AWS的合作。此外,还提到OpenAI的自伤风险警报功能等安全和政策更新。

LWiAI播客第245期 - TML互动、法律领域的Claude、Sam Altman在Stand上的发言

Last Week in AI
Last Week in AI · 2026-05-20T07:45:49Z
2026 年的海外 AI 语音模型:实时翻译与语音克隆

AI语音模型正在迅速发展,改变各行业的通信与自动化。OpenAI的GPT Realtime-2支持70多种语言,但面临幻觉和安全限制。谷歌的TTS模型以自然生动的语音输出著称,适合个性化应用,但响应较慢。InWorld AI的TTS-2专注于游戏互动,速度快但情感表达不足。XAI的Groon API兼顾速度与多功能性,适合个性化需求。尽管存在幻觉和可控性问题,AI语音技术在实时翻译和客户支持等领域展现出巨大潜力。

2026 年的海外 AI 语音模型:实时翻译与语音克隆

实时互动网
实时互动网 · 2026-05-13T06:57:36Z
OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

OpenAI 发布了三个新音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别用于语音推理、实时翻译和转录。GPT-Realtime-2 具备 GPT-5 级推理能力,支持复杂对话和任务;GPT-Realtime-Translate 可将 70 多种语言实时翻译成 13 种语言;GPT-Realtime-Whisper 提供低延迟的语音转文本服务。所有模型已通过 Realtime API 正式上线。

OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

实时互动网
实时互动网 · 2026-05-09T03:14:53Z
终于能听 GPT-5 给我说人话了

OpenAI 发布了新的实时语音模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这些模型提升了语音助手的智能,能够进行复杂任务、实时翻译和音频转录。GPT-Realtime-2 具备更强的推理能力,支持多线程操作,使得语音交互更加自然,未来可能改变我们与数字世界的互动方式。

终于能听 GPT-5 给我说人话了

爱范儿
爱范儿 · 2026-05-08T00:08:18Z
OpenAI将GPT-5级推理引入其语音模型

OpenAI推出了三种新的语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。GPT-Realtime-2性能提升11%,支持更复杂的交互;GPT-Realtime-Translate专注于实时翻译,支持70种输入语言和13种输出语言;GPT-Realtime-Whisper是最新的流媒体转录模型,适用于多种语音AI应用场景,定价合理。

OpenAI将GPT-5级推理引入其语音模型

The New Stack
The New Stack · 2026-05-07T17:13:46Z
通过API中的新模型推动语音智能发展

OpenAI推出了三种音频模型,分别是GPT-Realtime-2(实时对话)、GPT-Realtime-Translate(支持70多种语言的实时翻译)和GPT-Realtime-Whisper(低延迟语音转文本)。这些模型提升了语音交互的智能性和响应能力,适用于客户支持和教育等领域。

通过API中的新模型推动语音智能发展

OpenAI
OpenAI · 2026-05-07T10:00:00Z

谷歌推出多项旅行工具,帮助用户规划夏季旅行,包括AI生成个性化行程、酒店价格追踪、简化餐厅预订、代拨电话查询商品、实时翻译应用、个性化旅行建议的Ask Maps,以及简化机场流程的Google Wallet,提升旅行体验。

夏季旅行更智能的7种方式,借助谷歌的帮助

The Keyword
The Keyword · 2026-04-17T14:00:00Z
Translumo:一款实时屏幕翻译工具,支持多语言和多OCR引擎

Translumo是一款实时屏幕翻译工具,支持多语言和高精度OCR,适用于游戏和视频等内容的快速翻译。它开源、完全本地化,使用简便,适合多种应用场景。

Translumo:一款实时屏幕翻译工具,支持多语言和多OCR引擎

极道
极道 · 2026-04-01T12:37:00Z
谷歌的‘实时’AI搜索助手可以处理更多语言的对话

谷歌扩展了其“实时搜索”功能,现已在200多个国家和地区推出,支持语音和相机搜索。新模型Gemini 3.1 Flash Live具备多语言支持和更快的响应速度,提供更自然的对话体验。此外,谷歌在iOS上推出了实时翻译功能,用户可以实时捕捉语音并听到翻译。

谷歌的‘实时’AI搜索助手可以处理更多语言的对话

The Verge
The Verge · 2026-03-26T18:47:51Z

实时翻译提升了我的旅行体验,帮助我获取推荐、理解火车广播和与其他旅客交流,保留了说话者的语气和节奏,让我感受到城市和人们的独特氛围。

将您的耳机变成iOS上的实时个人翻译器

The Keyword
The Keyword · 2026-03-26T16:00:00Z
GSMA发布白皮书,阐述AI Calling体验评估规范

在2026年巴塞罗那通信展上,GSMA发布白皮书,探讨移动AI时代运营商原生话音业务的发展,重点关注AI沉浸式和交互式通话。白皮书定义了AI Calling体验评估规范,强调AI降噪和实时翻译等应用,以提升运营商的语音服务体验。

GSMA发布白皮书,阐述AI Calling体验评估规范

全球TMT-美通国际
全球TMT-美通国际 · 2026-03-12T05:02:06Z

飞协博推出新AI智能体,升级技术平台,具备海关审计、自动化退税、货运优化和实时翻译等功能,提升全球贸易效率。Flexport Atlas提供全面数据支持。

飞协博发布全新AI智能体,优化海关管理与供应链成本

全球TMT-美通国际
全球TMT-美通国际 · 2026-02-27T02:48:27Z
T-Mobile将实时翻译常规电话,无需应用程序

T-Mobile计划在今年春季推出实时翻译功能,支持50多种语言,用户无需特定应用即可使用。该功能将在5G网络上运行,用户只需拨打87即可激活,测试期间免费。实时翻译仅在通话中有效,不会保存通话记录。

T-Mobile将实时翻译常规电话,无需应用程序

The Verge
The Verge · 2026-02-11T12:35:00Z
今天仅限于,您可以以不到200美元的价格购买AirPods Pro 3

苹果的AirPods Pro 3耳机现以199.99美元(优惠50美元)出售,适合情人节赠礼。耳机具备优秀的主动噪声取消功能和音质,设计舒适,适合运动,内置心率传感器可追踪锻炼数据,支持实时翻译,兼容苹果设备,提供自动切换功能。

今天仅限于,您可以以不到200美元的价格购买AirPods Pro 3

The Verge
The Verge · 2026-01-23T16:40:56Z

影目INMO在一年内完成三轮融资,推出的智能眼镜INMO GO3具备双向对话和实时翻译功能,市场反响热烈,预订量超过20000台。公司专注于轻量化一体式AI+AR眼镜,技术领先,已成为智能眼镜领域的开创者。

一年拿下三轮融资!影目INMO正在鼻梁上“复刻”一个AI手机

量子位
量子位 · 2026-01-15T03:04:30Z

谷歌推出了改进版的Gemini 2.5 Flash Native Audio,增强了语音交互能力,提供更精准的指令执行和更流畅的对话体验,同时支持70多种语言的实时语音翻译,用户可在Google Translate应用中体验这一功能。

改进版Gemini音频模型,带来强大的语音体验

Google DeepMind Blog
Google DeepMind Blog · 2025-12-12T17:50:50Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码