小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

VoXtream技术通过实时文本处理消除了传统TTS系统的延迟,采用动态音素前瞻机制,提升了语音生成的速度和自然度。与其他系统相比,VoXtream在字错误率和实时因子上表现优异,适合实时语音代理和同声传译。

VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用

实时互动网
实时互动网 · 2025-09-24T02:35:18Z

魅族推出全新AI眼镜StarV Snap,售价1999元,重39克。支持12国语言同声传译、AI识物、语音转写和扫码支付,配备1200万像素镜头,支持720P录制和1080P拍摄,适合内容创作者和Vlog爱好者。

魅族AI眼镜1999元起售:拍照翻译付款全都会,39g重

量子位
量子位 · 2025-09-16T07:24:12Z

雷登A7蓝牙耳机支持同声传译,设计轻巧,音质优良,续航达50小时,防水等级IPX4,适合运动和日常使用,价格在百元左右,值得尝试。

不止是耳机,运动与商务的结合!雷登A7开放式蓝牙耳机

熊猫不是猫QAQ
熊猫不是猫QAQ · 2025-08-19T10:07:38Z

火山引擎发布豆包系列新模型,包括图像编辑模型3.0和同声传译模型2.0,提升了指令遵循和语音延迟,支持多模态检索,并推出开源开发工具和模型托管方案,助力企业AI应用落地。

火山引擎发布豆包最新图像编辑、同传模型,加速Agent开发落地

量子位
量子位 · 2025-07-30T05:32:20Z
豆包·同声传译模型2.0来了:3s延迟,实时声音复刻

火山引擎推出的豆包·同声传译模型Seed LiveInterpret 2.0,支持中英同传,延迟仅2-3秒,无需样本即可复刻音色,适合国际会议和日常交流,提升跨语言沟通体验。

豆包·同声传译模型2.0来了:3s延迟,实时声音复刻

实时互动网
实时互动网 · 2025-07-24T07:25:20Z
webrtc视频会议AI实时语音转字幕

本文介绍如何利用AI技术为WebRTC视频会议实时生成字幕,提升会议体验。通过音频流处理、语音活动检测和语音转文字技术,实现实时字幕功能,未来可实现同声传译。

webrtc视频会议AI实时语音转字幕

实时互动网
实时互动网 · 2025-02-17T03:38:25Z
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器

字节跳动在深圳的巡展上发布了多模态大模型,包括视频生成、音乐生成和同声传译。豆包视频模型通过DiT架构实现动态生成和多镜头切换,支持多种风格。音乐模型可通过文本或图片生成音乐,并支持风格转换。同声传译模型实现实时翻译。火山引擎还升级了现有模型,提高了效率和性能,降低了成本。

终于拿到内测!豆包-PixelDance真是字节视频生成大杀器

机器之心
机器之心 · 2024-09-29T04:54:10Z
字节大模型同传智能体,一出手就是媲美人类的同声传译水平

字节跳动的研究人员推出了端到端同声传译智能体CLASI,效果接近专业人工水平。CLASI采用了端到端架构,具备获取外部知识的能力。在人工评测中,CLASI超过商业系统和开源SOTA系统,甚至达到或超过人类同传水平。研究人员还引入了多模态检索增强生成过程,提高了翻译质量。

字节大模型同传智能体,一出手就是媲美人类的同声传译水平

机器之心
机器之心 · 2024-07-25T06:06:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码