NVIDIA发布了四个新的微服务,支持开发者构建和部署生成式人工智能应用程序。这些微服务支持区域语言模型,提供对当地法律、法规和习俗的更深入理解。模型在语言理解、法律任务、问答和语言翻译方面具有领先的性能。这些微服务经过优化,使用NVIDIA TensorRT-LLM开源库进行推理,可以提供高达5倍的吞吐量。它们以托管的API形式提供,并可在医疗、金融、制造、教育和法律等各个行业中使用。NVIDIA AI Foundry还提供了一个平台,供开发者创建定制的区域语言模型。
区域语言模型(RegionGPT)通过改进视觉编码器和任务导向提示,提升了区域级标题生成和理解能力。研究评估了其在空间关系推理中的表现,并构建了高质量的远程感知图像字幕数据集(RSICap),提出了新的评估框架。大型语言模型在空间关系表示方面展现出潜力,但仍需改进。
区域语言模型(RegionGPT)通过改进视觉编码器和集成任务导向提示,提升了区域级标题生成和理解能力。研究引入ViLLA模型,解决了标准视觉语言模型在复杂数据集上的性能下降问题,表现优于其他模型。本文还回顾了视觉语言模型在识别任务中的应用及其预训练方法,推动了人工通用智能的发展。
完成下面两步后,将自动完成登录并继续当前操作。