本文探讨了零样本学习(ZSL)在图像识别中的应用,提出了利用视觉-语义嵌入和无监督微调技术的多种改进方法,以提高模型的准确性和适应性。研究强调了类别语义嵌入的重要性,并提出了新的评估指标和数据集,以推动该领域的发展。
本文探讨了无监督微调CLIP模型及其在视觉语言模型中的应用,提出了通用熵优化(UEO)方法,显著提升了模型的泛化能力和未知类别样本检测。研究还介绍了AutoCLIP、MetaCLIP和VeCLIP等新方法,改善了数据质量和模型性能,尤其在零样本分类任务中表现优异。
本文研究了视觉语言模型(VLM)的视觉编码能力,提出了BRAVE方法,通过整合多个编码器特征,提升了字幕生成和视觉问答的性能。研究还探讨了无监督微调和多模任务的适应方法,表明结合多种视觉偏差能显著改善VLM的表现。
本文介绍了一种通过未标记语音数据对递归神经网络转录器进行无监督微调的新方法,显著提升了自动语音识别系统的性能。同时,研究探讨了训练注意力机制模型、半监督学习和文本表示框架等方法,均有效提高了识别准确率。
本文探讨了提升大型语言模型事实准确性的方法,包括无监督微调、事实增强训练和自动偏好优化(APO)框架。研究表明,通过优化算法和自我评估,模型生成文本的准确性显著提高。同时,提出了FActScore评估生成文本真实性的新方法,发现当前模型在检测事实错误方面仍存在不足。整体目标是提升语言模型的可靠性和准确性。
本文介绍了一种名为UP-Adapter的无监督微调方法,利用CLIP的文本-图像对齐能力选择每个类别中最有信心的样本生成类别原型,用于原型模型的初始化。通过剩余连接将原型模型的预测与原始CLIP的预测相结合,用于下游识别任务。实验结果显示该方法在图像识别和领域泛化方面具有优势。
本文研究信息提取问题,使用预训练语言模型和图神经网络相结合的模型编码视觉和文本信息,并通过无监督微调改善性能。实验证明该方法在发票和简历数据集上的性能优于基线方法。
本文研究信息提取问题,使用预训练语言模型和图神经网络相结合的模型编码视觉和文本信息,通过无监督微调改善性能。实验证明该方法在发票和简历数据集上的绝对F1值分别提高了6.3%和4.7%。在少样本情况下,相同性能需要比基线少30倍的批注数据。
完成下面两步后,将自动完成登录并继续当前操作。