本研究提出了一种新模型R1 Translator,旨在提高脑电图(EEG)信号解码为文本的质量。该模型结合了双向LSTM编码器和预训练的变换器解码器,表现优于T5和Brain Translator,显示出在脑-语言处理中的重要性。
本研究提出了多模态语言生成模型NeuGPT,旨在解决神经记录研究的碎片化问题。该模型能够处理多种神经信号,并与文本和语音数据交互,从而提升脑对文本解码的效果。
提出了Contrastive EEG-Text Masked Autoencoder模型,实现了EEG到文本的解码。实验结果显示,该模型在文本激发的EEG数据库上的ROUGE-1 F1和BLEU-4得分分别超过现有技术8.34%和32.21%,展示了该框架在大脑计算界面应用领域的潜力。
基于Lip2Vec的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到音频潜在表示,实现文本解码。在LRS3数据集上,该方法实现了26%的错误率(WER),并在VoxCeleb测试集上保持了合理的性能,缩小了口语识别与视觉语音识别之间的性能差距。
完成下面两步后,将自动完成登录并继续当前操作。