本研究通过微调Whisper模型和大语言模型后期编辑,显著提高了爱沙尼亚电视字幕的质量,接近人类标准,并可扩展至实时应用。
本论文研究了一种基于kNN记忆的图像字幕生成方法,利用外部语料库检索知识辅助生成过程。实验结果表明,采用外部存储器可以提高字幕质量。该研究为图像字幕生成模型的改进提供了新的途径。
完成下面两步后,将自动完成登录并继续当前操作。