小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨了视觉语言模型在复杂视觉推理中的挑战,特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力,发现现有模型在零样本设置下表现不佳,并提出基于相关实体的训练策略,提升推理效果可达7%。

Driving Visual Question Answering: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本研究提出EvoLlama框架,结合结构和序列编码器,提升大语言模型对蛋白质的理解。EvoLlama在零样本设置中优于其他模型,并在蛋白质属性预测任务中表现出色。

EvoLlama: Enhancing Large Language Models' Understanding of Proteins through Multimodal Structure and Sequence Representations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究提出任务校准(TC)方法,以解决大型语言模型在推理任务中因虚假相关性导致的性能下降。实验结果表明,TC显著提升了模型在零样本设置下的表现。

Task Calibration: Calibrating Large Language Models for Inference Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

StyleLipSync是一种基于风格的个性化唇形同步视频生成模型,可以从任意音频生成与身份无关的唇形同步视频。该模型通过引入姿态感知掩蔽和少量样本的唇形同步适应方法,生成准确的唇形同步视频,并增强个人特定的视觉信息。实验证明,该模型在零样本设置下也能增强看不见的面部特征。

嘴唇说谎:识别唇同步 DeepFakes 中音频和视觉之间的时间不一致

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-28T00:00:00Z

GPT-4模型在原生语言识别方面表现出色,零样本设置下达到91.7%的性能记录。LLMs可以在无需限制已知类别的情况下执行NLI,并提供选择的理由。

大型语言模型进行母语识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-13T00:00:00Z

该研究探讨了大型语言模型在零样本设置中的图像共享能力,并提出了一个两阶段框架。实验证明 GPT-4 在零样本提示下实现了最佳性能,并证明了框架的有效性。

大型语言模型也能分享图片!

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-23T00:00:00Z

本研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,在零样本设置下,指导式LLMs表现非常有竞争力,有时甚至比特定任务微调的小型SOTA模型表现更好。在少样本设置下,添加演示示例可以帮助LLMs在大多数任务中表现更好,但有时会导致不稳定或更差的表现。使用基于BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

大型语言模型中的指导位置在序列生成中的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-23T00:00:00Z

本研究评估了10个开源指导式LLMs在代码理解和生成任务上的表现。结果显示,在零样本设置下,指导式LLMs表现非常有竞争力,有时比特定任务微调的小型SOTA模型更好。在少样本设置下,添加演示示例可以帮助LLMs表现更好,但有时会导致不稳定或更差的表现。使用BM25的选样策略在生成问题上优于随机选样或固定选样。微调可以进一步提高模型性能。指导式LLMs在微调后的性能优于小型SOTA模型和未进行指导微调的相似规模LLMs。研究提出了模型和使用建议、性能和成本的权衡以及未来方向的实用影响。

OctoPack:指令优化大型语言模型代码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-14T00:00:00Z

本文研究了利用预训练的Vision Transformer模型对肺癌病理组织切片进行多标签分类。结果显示,在零样本和少样本设置下,预训练的ViT模型表现良好,具有较高的准确度、精度、召回率、敏感度和特异性。在Fig-Shot设置下,获得了最佳结果(验证集和测试集上均为100%)。

利用合成病理先验在 CT 图像上对肺癌亚型进行分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码