小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Tavus推出Sparrow-1,在实时语音视频中实现媲美人类的对话时序处理能力

Tavus推出的Sparrow-1对话流程控制模型提升了AI在实时语音和视频中的时序感知能力,能够判断何时发言和等待,避免传统系统的延迟和中断,提供更自然的对话体验。该模型已在Tavus的产品中全面应用。

Tavus推出Sparrow-1,在实时语音视频中实现媲美人类的对话时序处理能力

实时互动网
实时互动网 · 2026-01-21T06:51:15Z
Tolan如何利用GPT-5.1构建语音优先的AI

Tolan是一个语音优先的AI助手,通过个性化动画角色与用户对话,具备学习能力。其设计注重自然对话,采用实时上下文管理和记忆系统,确保交流的一致性和流畅性。引入GPT-5.1模型后,响应速度和角色表现显著提升,使Tolan能够灵活应对话题变化,提供更吸引人的用户体验。

Tolan如何利用GPT-5.1构建语音优先的AI

OpenAI
OpenAI · 2026-01-07T10:00:00Z
非常适合虚拟主播,推荐一个开源的基于 .NET 和 AI 开发的交互式虚拟形象引擎

Persona Engine 是一款基于 AI 的虚拟形象引擎,旨在为 VTuber 和虚拟助手提供自然互动体验。它整合多项技术,使虚拟角色能够理解、思考、表达情感并与用户进行自然对话,适用于直播、教育和游戏等场景。

非常适合虚拟主播,推荐一个开源的基于 .NET 和 AI 开发的交互式虚拟形象引擎

dotNET跨平台
dotNET跨平台 · 2025-12-25T23:50:26Z
语音 AI 如何拓展 AI 陪伴市场的边界

AI陪伴市场正在快速增长,预计到2028年将达到595亿元人民币。技术进步如毫秒级响应和情感识别使AI能够实现自然对话,广泛应用于心理健康和社交技能等领域。同时,隐私和安全问题日益重要,企业需采取加密措施保护用户数据。

语音 AI 如何拓展 AI 陪伴市场的边界

实时互动网
实时互动网 · 2025-12-24T09:06:01Z

Android Auto的Gemini助手即将推出,支持自然对话,提升驾驶安全与便利。用户可轻松添加停靠点、发送消息、访问邮件、创建播放列表及进行实时交流。

Gemini助手已上线Android Auto:5个值得尝试的功能

The Keyword
The Keyword · 2025-11-20T17:00:00Z
Call Center AI – 微软竟然开源了整套、能打电话的 AI 呼叫中心

微软的Call Center AI项目使开发者能够构建自定义AI呼叫系统,具备自动拨打、接听、语音识别和自然对话能力。用户只需配置Azure服务和OpenAI模型,即可创建AI客服中心,适用于个人助手和企业原型验证。该系统支持多语言对话、上下文记忆和实时通话记录,功能强大且易于定制。

Call Center AI – 微软竟然开源了整套、能打电话的 AI 呼叫中心

小众软件
小众软件 · 2025-11-03T04:36:26Z
Pinterest的新AI购物助手帮助你挑选服装

Pinterest推出了一款AI购物助手,用户可通过语音与其互动,获取个性化推荐。该助手根据用户的收藏和当前屏幕内容提供建议,旨在实现更自然的对话体验。此功能为可选,不替代传统文本搜索,用户可按住麦克风按钮与助手交流,助手会简要描述推荐内容。

Pinterest的新AI购物助手帮助你挑选服装

The Verge
The Verge · 2025-10-30T16:00:00Z
AI 语音系统从炒作走向可衡量的影响

随着AI在联络中心的应用增加,企业关注提升客户体验和运营效率。专家指出,AI应促进人际连接,提供自然对话,减少客户转接。持续优化AI模型以确保高质量结果至关重要,未来AI将成为自主合作者,提升客户满意度和员工效率。

AI 语音系统从炒作走向可衡量的影响

实时互动网
实时互动网 · 2025-10-28T02:31:30Z
谷歌正在试验 Gemini Mic Lock 以实现自然语音:语音 AI 游戏规则改变者

谷歌推出“麦克风锁”新功能,允许用户长时间说话而不被打断,解决语音助手停顿问题。该功能支持持续录音,适合复杂请求和慢语速用户,提升自然对话体验。同时,新界面可自由移动按钮,增强使用便利性。

谷歌正在试验 Gemini Mic Lock 以实现自然语音:语音 AI 游戏规则改变者

实时互动网
实时互动网 · 2025-10-23T07:12:49Z
使用Amazon Bedrock和Pipecat构建低延迟智能语音Agent

构建智能语音Agent需关注低延迟和自然对话体验,核心组件包括语音识别、理解和合成。使用Pipecat框架可简化开发,支持多种传输协议。优化延迟的方法包括靠近用户、选择高效协议和优先使用端到端模型。

使用Amazon Bedrock和Pipecat构建低延迟智能语音Agent

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-10-21T03:12:39Z

谷歌推出的Gemini for Home语音助手提升了家庭智能设备的互动体验,支持自然对话和上下文理解,简化媒体播放、家庭协调和智能家居控制。它还增强了智能摄像头功能,提供详细事件描述和视频回顾,用户可通过自然语言快速控制设备和创建自动化。

Gemini for Home:智能家居迎来AI升级

The Keyword
The Keyword · 2025-10-01T13:00:00Z
Cloudflare是构建实时语音代理的最佳平台

Cloudflare推出了实时语音AI应用的新功能,简化了开发流程,支持低延迟语音识别和自然对话,帮助开发者构建灵活的AI管道,提升用户体验。

Cloudflare是构建实时语音代理的最佳平台

The Cloudflare Blog
The Cloudflare Blog · 2025-08-29T14:00:00Z

Gemini旨在成为日常通用AI助手,支持自然对话和视觉指导。新功能包括与Google应用的深度整合,以便更好地管理日程和任务。即将推出的更新将提升语音表达,使对话更加自然流畅。

Gemini Live:更智能、自然且具视觉指导的助手

The Keyword
The Keyword · 2025-08-20T16:00:00Z

OpenAI首次回应人机情感问题,指出越来越多用户与ChatGPT建立情感联系,认为AI的自然对话能力加深了这种关系。文章探讨了AI是否有意识,强调人机关系的复杂性,呼吁谨慎对待人机互动,以免影响人际关系。未来,OpenAI将继续研究和优化模型行为。

OpenAI首次回应人机情感问题:越来越多人对ChatGPT产生依赖,模型感知意识会继续增强

量子位
量子位 · 2025-06-06T07:32:39Z

Gemini 2.5 是一款多模态 AI,支持文本、图像、音频、视频和代码的生成与理解。其音频对话功能具备自然对话、风格控制和工具集成,能够实时响应用户语气,支持多语言交流。开发者可通过 Gemini API 创建丰富应用,确保音频输出的安全性和透明性。

Gemini 2.5 的高级音频对话与生成

The Keyword
The Keyword · 2025-06-03T16:00:00Z
Rime 推出 Arcana 和 Rimecaster(开源):基于真实世界语音构建的实用语音 AI 工具

Rime在语音AI领域推出了Arcana和Rimecaster,旨在提升语音应用的真实性和灵活性。Arcana优化了口语文本转语音,支持多种说话风格;Rimecaster基于自然对话训练,增强说话者识别能力。这些模型强调数据多样性和模块化设计,适用于实时应用,提升语音合成的自然度。

Rime 推出 Arcana 和 Rimecaster(开源):基于真实世界语音构建的实用语音 AI 工具

实时互动网
实时互动网 · 2025-05-15T02:39:02Z
谷歌推出了专为iPad设计的Gemini应用

谷歌推出了专为iPad设计的Gemini应用,支持分屏功能,用户可在45种语言中进行自然对话,快速生成报告,处理音频文件,并与AI协作编辑文档和代码。该应用已在所有Gemini可用国家上线,用户可从App Store下载。

谷歌推出了专为iPad设计的Gemini应用

The Verge
The Verge · 2025-05-07T20:52:59Z

现代文本转语音(TTS)技术,如E2和F5 TTS模型,显著提升了语音生成质量,解决了传统系统的延迟和不自然问题。E2 TTS采用简化架构,F5 TTS结合流匹配和扩散变换器,进一步优化输出。用户可以通过HuggingFace平台轻松测试和应用这些模型,生成更自然的人声对话。

现代文本转语音解决方案

KDnuggets
KDnuggets · 2025-03-20T12:00:03Z
刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模型,API价格飞涨30倍,不拼推理拼情商

OpenAI发布了GPT-4.5,提升了自然对话能力和情商,减少了幻觉现象。该模型在多个基准测试中表现优异,适用于写作和编程任务。尽管价格高昂,GPT-4.5仍缺乏推理能力,未来将持续更新以增强功能。

刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模型,API价格飞涨30倍,不拼推理拼情商

机器之心
机器之心 · 2025-02-28T01:25:48Z
GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手

OpenAI发布了GPT-4.5,强调其更广泛的知识和更高的情商,能够理解用户意图并进行自然对话。该模型通过无监督学习提升性能,支持联网搜索和文件处理,但不具备多模态功能。GPT-4.5在多项评估中优于前代,适用于写作和编程,开发者可通过API接入,未来将继续优化。

GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手

爱范儿
爱范儿 · 2025-02-27T22:42:12Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码