小红花·文摘

本研究探讨了视觉语言模型在复杂视觉推理中的挑战，特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力，发现现有模型在零样本设置下表现不佳，并提出基于相关实体的训练策略，提升推理效果可达7%。

Driving Visual Question Answering: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios

BriefGPT - AI 论文速递 ·

本研究提出EvoLlama框架，结合结构和序列编码器，提升大语言模型对蛋白质的理解。EvoLlama在零样本设置中优于其他模型，并在蛋白质属性预测任务中表现出色。

EvoLlama: Enhancing Large Language Models' Understanding of Proteins through Multimodal Structure and Sequence Representations

BriefGPT - AI 论文速递 ·

本研究提出任务校准（TC）方法，以解决大型语言模型在推理任务中因虚假相关性导致的性能下降。实验结果表明，TC显著提升了模型在零样本设置下的表现。

Task Calibration: Calibrating Large Language Models for Inference Tasks

BriefGPT - AI 论文速递 ·

StyleLipSync是一种基于风格的个性化唇形同步视频生成模型，可以从任意音频生成与身份无关的唇形同步视频。该模型通过引入姿态感知掩蔽和少量样本的唇形同步适应方法，生成准确的唇形同步视频，并增强个人特定的视觉信息。实验证明，该模型在零样本设置下也能增强看不见的面部特征。

嘴唇说谎：识别唇同步 DeepFakes 中音频和视觉之间的时间不一致

BriefGPT - AI 论文速递 ·

GPT-4模型在原生语言识别方面表现出色，零样本设置下达到91.7%的性能记录。LLMs可以在无需限制已知类别的情况下执行NLI，并提供选择的理由。

大型语言模型进行母语识别

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型在零样本设置中的图像共享能力，并提出了一个两阶段框架。实验证明 GPT-4 在零样本提示下实现了最佳性能，并证明了框架的有效性。

本研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示，在零样本设置下，指导式LLMs表现非常有竞争力，有时甚至比特定任务微调的小型SOTA模型表现更好。在少样本设置下，添加演示示例可以帮助LLMs在大多数任务中表现更好，但有时会导致不稳定或更差的表现。使用基于BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

Driving Visual Question Answering: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios

EvoLlama: Enhancing Large Language Models' Understanding of Proteins through Multimodal Structure and Sequence Representations

Task Calibration: Calibrating Large Language Models for Inference Tasks

嘴唇说谎：识别唇同步 DeepFakes 中音频和视觉之间的时间不一致

大型语言模型进行母语识别

大型语言模型也能分享图片！

大型语言模型中的指导位置在序列生成中的作用

OctoPack：指令优化大型语言模型代码

利用合成病理先验在 CT 图像上对肺癌亚型进行分类