本研究探讨了视觉语言模型在复杂视觉推理中的挑战,特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力,发现现有模型在零样本设置下表现不佳,并提出基于相关实体的训练策略,提升推理效果可达7%。
本研究提出EvoLlama框架,结合结构和序列编码器,提升大语言模型对蛋白质的理解。EvoLlama在零样本设置中优于其他模型,并在蛋白质属性预测任务中表现出色。
本研究提出任务校准(TC)方法,以解决大型语言模型在推理任务中因虚假相关性导致的性能下降。实验结果表明,TC显著提升了模型在零样本设置下的表现。
StyleLipSync是一种基于风格的个性化唇形同步视频生成模型,可以从任意音频生成与身份无关的唇形同步视频。该模型通过引入姿态感知掩蔽和少量样本的唇形同步适应方法,生成准确的唇形同步视频,并增强个人特定的视觉信息。实验证明,该模型在零样本设置下也能增强看不见的面部特征。
GPT-4模型在原生语言识别方面表现出色,零样本设置下达到91.7%的性能记录。LLMs可以在无需限制已知类别的情况下执行NLI,并提供选择的理由。
该研究探讨了大型语言模型在零样本设置中的图像共享能力,并提出了一个两阶段框架。实验证明 GPT-4 在零样本提示下实现了最佳性能,并证明了框架的有效性。
本研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,在零样本设置下,指导式LLMs表现非常有竞争力,有时甚至比特定任务微调的小型SOTA模型表现更好。在少样本设置下,添加演示示例可以帮助LLMs在大多数任务中表现更好,但有时会导致不稳定或更差的表现。使用基于BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。
本研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,在零样本设置下,指导式LLMs表现非常有竞争力,有时比特定任务微调的小型SOTA模型更好。在少样本设置下,添加演示示例可以帮助LLMs表现更好,但有时会导致不稳定或更差的表现。使用BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。
本文研究了利用预训练的Vision Transformer模型对肺癌病理组织切片进行多标签分类。结果显示,在零样本和少样本设置下,预训练的ViT模型表现良好,具有较高的准确度、精度、召回率、敏感度和特异性。在Fig-Shot设置下,获得了最佳结果(验证集和测试集上均为100%)。
完成下面两步后,将自动完成登录并继续当前操作。