小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了深度学习在语音到文本翻译中的应用,重点研究了端到端架构和CTC损失函数的影响。预训练模型显著提升了翻译性能,实验结果表明其在多个数据集上超越了现有系统。此外,提出了基于CTC的动态音频信号压缩方法和流式多语言模型,优化了翻译质量和效率。

CTC-GMM:用于快速准确流式语音翻译的CTC引导模态匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
字节大模型同传智能体,一出手就是媲美人类的同声传译水平

字节跳动的研究人员推出了端到端同声传译智能体CLASI,效果接近专业人工水平。CLASI采用了端到端架构,具备获取外部知识的能力。在人工评测中,CLASI超过商业系统和开源SOTA系统,甚至达到或超过人类同传水平。研究人员还引入了多模态检索增强生成过程,提高了翻译质量。

字节大模型同传智能体,一出手就是媲美人类的同声传译水平

机器之心
机器之心 · 2024-07-25T06:06:00Z

理想AI司机全国上岗,紧跟特斯拉华为转向端到端架构,世界模型也亮相了。理想刚刚召开了2024智能驾驶夏季发布会,升级内容包括智驾范围扩大、主动安全能力提升和系统架构转向端到端。下一代自动驾驶系统将采用快慢系统理论,其中慢系统使用视觉语言模型提供复杂环境和交通规则的理解能力。理想还将在云端采用世界模型加快系统升级。

理想AI司机全国上岗,紧跟特斯拉华为转向端到端架构,世界模型也亮相了

量子位
量子位 · 2024-07-08T04:53:33Z
通往 AGI 的道路,感知模型与大语言模型

大语言模型无法感知饥饿等生理状态,无法达到AGI。语言模型只生成词语序列,无法预测感知。端到端架构可以避免压缩,构建完备的生态。GPT4o模型是否具备感知尚不确定,但感知和预测是通往AGI的重要因素。

通往 AGI 的道路,感知模型与大语言模型

橘子汽水铺
橘子汽水铺 · 2024-07-05T13:36:44Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码