BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端,我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验:首先,只使用从音频波形中获得的声学信息来训练分类器;其次,将自动语音识别(ASR)系统的解码器输出,如 1 最佳假设,作为大型语言模型(LLM)的输入特征;最后,探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型,在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模,并使用低秩适应来进行训练,在我们的数据集上进一步降低了相对误差率高达 18%。

虚拟助手的交互可以不需要预定义的触发短语,通过实验发现多模态系统相比文本和音频模型有更好的性能。

语言模型

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
Dify.AI
Dify.AI
eolink
eolink
LigaAI
LigaAI

推荐或自荐