小红花·文摘

Apple Machine Learning Research ·

The New Stack ·

DEV Community ·

机器之心 ·

机器之心 ·

本文提出了一种基于LSTM网络的端到端视觉语音识别系统，取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7％，在CUAVE数据库上比其他类似方法的系统提高了1.5％。

BriefGPT - AI 论文速递 ·

本文介绍了一种新的端到端语音情感识别系统，利用共同关注机制和多层声学信息。实验证明该系统在IEMOCAP数据集上表现出竞争性能。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于约束编程和强化学习的端到端解决调度问题的方法，通过神经网络架构和训练算法，在七个JSSP数据集上展示了比静态PDRs和CP求解器更高质量的解决方案。

BriefGPT - AI 论文速递 ·

本技术报告介绍了LongViT，一种能够以端到端方式处理十亿像素图像的视觉Transformer。通过将图像分割成补丁并进行线性投影，使用LongNet对极长序列进行建模，生成捕捉了短程和长程依赖关系的表示。实验结果表明，LongViT在癌症诊断和预后方面优于先前的方法。

BriefGPT - AI 论文速递 ·

该研究提出了一种端到端的定向目标检测器，结合了旋转RoI注意力和选择性不同查询技术，能够有效解决遥感图像中多方向、不同尺度、密集分布的目标实例的检测问题。通过交叉注意机制，能够聚焦定向感兴趣区域并对多尺度特征进行对齐。实验证明该方法在多个数据集上取得了最先进的性能。

BriefGPT - AI 论文速递 ·

该研究探讨了经过语料库特殊增强后的端到端语音到文本翻译，研究了没有源语言转录和仅提供源语言转录的情况。实验结果表明，可以训练出紧凑高效的模型，并提供语料库，希望未来的研究能够挑战该语音翻译基线模型。

BriefGPT - AI 论文速递 ·

该文章介绍了一种基于手绘草图的3D建模方法，采用端到端的方式，引入了轻量级生成网络和结构感知对抗训练，并通过Stroke Enhancement Module（SEM）捕捉结构信息，提升性能。实验证明该方法在合成和真实数据集上具有最先进的性能。

BriefGPT - AI 论文速递 ·

微软的DelightfulTTS是一种端到端神经文本语音合成系统，用于Blizzard Challenge 2021。该系统通过直接建模和生成48 kHz采样率的波形，以及系统化设计来建模语音中的变化信息，实现了自然且高质量的语音合成。

BriefGPT - AI 论文速递 ·

该研究介绍了METER框架，一种多模态端到端Transformer框架，通过设计和预训练基于Transformer的视听模型，取得了77.64%的准确率，超过了以前的最优模型，最佳情况下可达到80.54%的准确率。

BriefGPT - AI 论文速递 ·