小红花·文摘

使用Amazon Bedrock和Pipecat构建低延迟智能语音Agent

亚马逊AWS官方博客 ·

本文介绍了一种新型的端到端可训练模型，利用变分形状推理和几何损失函数，直接预测隐式表面表示。该模型在3D表面预测任务中表现优异，能够在单视角下重建高保真度的三维模型，超越现有技术。通过神经网络和新的几何建模框架，提升了细节和重建质量，具备更好的泛化能力和准确性。

优化隐式神经表示的3D几何重建

BriefGPT - AI 论文速递 ·

本文介绍了一种新型的端到端可训练模型，利用变分形状推理和几何损失函数，直接预测隐式表面表示。研究表明，该模型在3D表面预测中表现出色，尤其在单视角重建方面优于现有技术。通过Deep Local Shapes和DIF-Net等方法，提升了3D形状的编码、重建和细节增强效果，展现了良好的性能和鲁棒性。

多细节层次的潜在隐式三维形状模型

BriefGPT - AI 论文速递 ·

本文探讨了自动语音识别（ASR）技术的改进方法，包括数据增强、端到端模型和多任务训练。研究表明，这些新方法能显著提升模型性能，尤其在资源稀缺语言的应用中，通过有效对齐音频与文本，简化数据准备，增强ASR系统的效果。

基于端到端自动语音识别模型的实时转录评估

BriefGPT - AI 论文速递 ·

本文介绍了一种新的端到端模型SSG，用于图像中定位所指物体。该模型通过多模态交互和引导注意机制提升性能，实验结果显示其在多个数据集上表现优异，能够快速准确地完成物体定位。

通过表达引导动态门控和回归使基于图的指称表达理解再创辉煌

BriefGPT - AI 论文速递 ·

利用多样化建模单元增强基于CTC的语音识别

Apple Machine Learning Research ·

本文研究了基于合成音频数据的对话状态追踪，开发了级联和端到端模型，消除了对人类语音数据的依赖。实验结果表明，使用合成数据训练的模型在实际人类语音数据上表现良好，为对话系统的进步奠定了基础。

基于生成式基础模型的合成音频能辅助音频识别和语音建模吗？

BriefGPT - AI 论文速递 ·

该研究介绍了Translatotron 2，一种高质量的神经语音转语音翻译模型，能够保留说话者的声音并保护隐私。研究还探讨了语音转写与翻译的端到端模型，提出了优化一致性的技术，并展示了多种基于神经网络的语音翻译系统的有效性。

TransVIP: 保留声音和等时性的语音到语音翻译系统

BriefGPT - AI 论文速递 ·

本文介绍了针对英语和中文语音的命名实体识别（NER）数据集及其优化方法。研究表明，端到端模型在处理同音字和词汇外单词时的表现优于传统方法，显著提高了识别准确性。

DANCER: 实体描述增强的命名实体校正工具用于自动语音识别

BriefGPT - AI 论文速递 ·

研究人员提出了一种新的去噪扩散过程Resfusion，可以整合现有的端到端模型和去噪扩散模型，提高图像分割性能。实验结果显示Resfusion在分割任务中表现出色，具有竞争力。

ResEnsemble-DDPM：残差去噪扩散概率模型的集成学习

BriefGPT - AI 论文速递 ·

本文提出了一种新的无需预训练语言模型的端到端模型，用于AMR分析，通过多个注意力、推理和组合过程回答两个关键问题，实验结果表明准确性有很大进步。

具有因果分层注意力和指针的 AMR 解析

BriefGPT - AI 论文速递 ·

本文研究了基于端到端模型训练语音模型的近期方法进展，发现针对语音文本对齐的时长模型是最重要的，同时共享编码器能够学习到更紧凑重叠的语音文本表示，这也是 Maestro 共享语音文本表示性能优异的部分原因。

基于联合语音 - 文本模型的小样本语音理解

BriefGPT - AI 论文速递 ·

该研究比较了不同的端到端模型在长篇转录上的性能，证明了RNN-T模型比注意力模型更加鲁棒，并提出了两种改进方法，使得注意力模型的性能得到了极大提升，达到了和RNN-T模型相当的水平。

遵循指示语音识别

BriefGPT - AI 论文速递 ·

本研究介绍了DECODE，一种以频域序列建模为主的端到端模型，用于EMRI信号检测。DECODE能够高效处理一年的多通道TDI数据，在信噪比50到120之间实现96.3%的真阳性率和1%的假阳性率。DECODE展示了基于空间的引力波数据分析的潜力。

DECODE：检测极端质量比引力波的扩张卷积神经网络

BriefGPT - AI 论文速递 ·

该论文提出了一种端到端模型，用于改进拥挤嘈杂环境中特定讲话者的自动语音识别。该模型利用语音增强模块隔离讲话者声音和背景噪音，并结合ASR模块，将识别错误率从80％降低到26.4％。通过联合精调策略，该模型将WER从26.4％降低到14.5％。

Convoifilter：一项关于进行鸡尾酒会话语音识别的案例研究

BriefGPT - AI 论文速递 ·

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态、多头注意力机制和转换器语言模型，解决了命名实体识别和多义词汇等问题，并在 CIDEr 评分上实现了四倍提升。

新闻图片标题生成的视觉感知上下文建模

BriefGPT - AI 论文速递 ·

本文研究了基于端到端模型训练语音模型的方法进展，通过分析共享语音文本表示的两种方法，扩展了对其理解。研究发现时长模型对语音文本对齐非常重要，有助于学习共享语音文本表示。同时，比较了单一编码器和共享编码器的激活相似性，发现共享编码器能够学习到更紧凑重叠的语音文本表示，这也是Maestro共享语音文本表示性能优异的原因之一。

改进不需要对齐的联合语音文本表示

BriefGPT - AI 论文速递 ·