标签

 数据集 

相关的文章:

汇总了涉及医学VQA评测、语言模型、自动驾驶、超分辨率模型等多个领域的数据集,包括超过20个人体器官和部位的ComfyUI SD3数据集、建造行业的公共微调数据集、突出、新颖、困难的语言模型数据集AutoBencher等。

链接预测中的数值文字:模型和数据集的关键审查

原文约200字,阅读约需1分钟。发表于:

我们提出了一种评估包含数字文字的 LP 模型的方法,并通过新的合成数据集和数据集切割策略来研究现有数据集的潜在问题,发现许多模型未充分利用文字信息并可能依赖额外参数来提高性能。我们的研究强调了发布新模型和数据集时需要进行更广泛的评估。

研究人员提出了一种评估包含数字文字的LP模型的方法,并发现许多模型未充分利用文字信息。研究强调了发布新模型和数据集时需要进行更广泛的评估。

相关推荐 去reddit讨论

VGGHeads:一个用于 3D 人脑头部的大规模合成数据集

原文约300字,阅读约需1分钟。发表于:

利用 VGGHeads 合成数据集生成的大规模合成数据集,介绍了一个新的模型架构,能够从单张图像中同时进行头部检测和头部网格重建,实现了在真实图像上的强大性能。

本文介绍了一种通过大规模合成数据学习一次性4D头部合成的方法。首先通过对抗学习从单眼图像中学习部件级4D生成模型,然后利用基于Transformer的可动三面板重建器使用合成数据学习4D头部重建。实验证明了该方法的优越性。

相关推荐 去reddit讨论

XS-VID: 一个极小的视频物体检测数据集

原文约600字,阅读约需2分钟。发表于:

小视频物体检测(SVOD)是现代计算机视觉中的一个重要子领域,对早期物体发现和检测至关重要。然而,现有的 SVOD 数据集稀缺,并且存在诸如物体过小、物体类别有限和场景多样性不足等问题,导致相应方法的应用场景单一。为解决这个问题,我们开发了 XS-VID 数据集,其中包括来自不同时期和场景的航拍数据,并对八个主要物体类别进行了注释。为了进一步评估现有的用于检测极小目标的方法,XS-VID...

XS-VID数据集是为了解决小视频物体检测方法应用场景单一的问题而开发的,包括不同时期和场景的航拍数据,并对八个主要物体类别进行了注释。验证结果显示,现有方法在小物体检测方面存在困难,性能低于普通物体检测器。提出了YOLOFT方法,提高了SVOD的准确性和稳定性。

相关推荐 去reddit讨论

探索自我监督学习中数据集多样性对于外科计算机视觉的影响

原文约400字,阅读约需1分钟。发表于:

近十年来,计算机视觉在微创手术中的应用迅速增加。尽管如此,相比病理学和放射学等其他医学领域,手术计算机视觉的影响仍然有限,主要原因是代表性注释数据的稀缺性。本研究调查了自我监督学习(SSL)中数据集多样性在手术计算机视觉中的作用,并比较了特定手术数据集与更多样化的一般手术数据集在三个不同的下游手术应用中的性能表现。研究结果表明,仅使用特定手术数据可以提高 13.8%,9.5%和...

近十年来,计算机视觉在微创手术中的应用迅速增加。本研究调查了自我监督学习(SSL)中数据集多样性在手术计算机视觉中的作用,并比较了特定手术数据集与更多样化的一般手术数据集在三个不同的下游手术应用中的性能表现。研究结果表明,使用更多样化的手术数据进一步提高了性能,增加 SSL 数据的多样性有助于模型性能。

相关推荐 去reddit讨论

MDS-ED:应急科室中的多模态决策支持 —— 诊断和恶化预测的基准数据集

原文约400字,阅读约需1分钟。发表于:

本研究介绍了一种基于 MIMIC-IV 数据集的多模态决策支持基准测试协议和初步结果,旨在评估急诊科的多模态决策支持。研究发现,多模态诊断模型在心脏问题、非心脏疾病和其他 1428 个医学情况中的 357 个条件以及 13 个关键目标方面取得了显著且表现突出的结果,证明了该方法在急救和急症医学中改变决策的潜力。

研究提出了应急护理多模态临床基准(MC-BEC),用于评估应急护理中的基础模型。MC-BEC关注临床相关预测任务,包括预测患者恶化、病情处理和急诊访问。该基准使用超过100K个急诊科访问的数据集,并包括了标准化评估框架。研究提供了每个预测任务的性能基准,以促进多模态、多任务模型的开发。

相关推荐 去reddit讨论

ERIT 轻量级多模态数据集用于老年人情绪识别和多模态融合评估

原文约300字,阅读约需1分钟。发表于:

ERIT 是一种新颖的多模态数据集,旨在促进轻量级多模态融合研究。该数据集包含了来自老年人对各种情境的反应的视频中的文本和图像数据,以及每个数据样本的七个情绪标签。由于使用了老年用户对情感的标记图像,它还促进了机器学习视觉情感识别中对年龄群体的情感识别的研究。通过全面的实验验证了该数据集的重要性,表明其在神经多模态融合研究中的重要性。

ERIT是一个包含老年人对各种情境的反应的多模态数据集,包括文本、图像和情绪标签。该数据集促进了轻量级多模态融合研究和机器学习视觉情感识别中对年龄群体的情感识别的研究。实验证明了该数据集在神经多模态融合研究中的重要性。

相关推荐 去reddit讨论

OVR:一份用于视频中开放词汇时态重复计数的数据集

原文约300字,阅读约需1分钟。发表于:

我们介绍了一个视频中时间重复的注释数据集 OVR,包含对超过 72K 个视频的注释,每个注释指定重复的次数、重复的开始和结束时间以及对正在重复的内容的自由形式描述。此外,我们还提出了一个基于 Transformer 的基准计数模型 OVRCounter,可以在视频中定位和计数重复,数据集已经发布并可供下载。

本研究介绍了电视节目检索(TVR)数据集,结合视频和字幕文本,包含109K个查询和查询类型标签。提出了多模态时刻定位网络(XML)模型,采用ConvSE模型,具有更好的效率和性能。同时,还收集了描述TVR标注时刻的相关信息,形成了多模式字幕数据集TVC。

相关推荐 去reddit讨论

数据集汇总丨萝卜快跑明年盈利?自动驾驶开启「端到端」新时代,高质量数据集助力 AI 大模型上车

原文约3200字,阅读约需8分钟。发表于:

其中包括 249,129 个 3D 注释帧,4,902 个用于跟踪的独立帧(总长度为 214,922 点),6,004 个用于 5D 交互式事件识别的有效片段,以及 4,900 个用于 5D...

百度自动驾驶业务部总经理表示,萝卜快跑计划在2024年底实现收支平衡,并在2025年全面盈利。自动驾驶技术的发展需要大量高质量数据训练,HyperAI超神经提供了多个开源自动驾驶数据集的下载。这些数据集包括ApolloScape、SODA10M、Talk2Car等,涵盖了自动驾驶的感知、导航和控制等领域。HyperAI超神经是国内领先的人工智能及高性能计算社区,为开发者提供丰富的公共资源。

相关推荐 去reddit讨论

一个适用于大规模数据集的多任务深度学习模型用于高光谱图像的分类和回归

原文约300字,阅读约需1分钟。发表于:

为了解决遥感领域中多样化和复杂场景下模型泛化性及可扩展性问题,本研究提出了一种用于高光谱图像的多任务深度学习模型,能够同时执行多个分类和回归任务。该方法通过共享编码器和任务特定解码器网络进行特征学习,并通过密集空洞金字塔池化层和注意力网络提取多尺度上下文信息,以及通过优化多任务损失的参数来提高模型性能和效率。实验结果表明,所提出的方法明显优于其他先进方法,均值性能更高且变异性较低。

本研究提出了一种用于高光谱图像的多任务深度学习模型,能够同时执行多个分类和回归任务。该方法通过共享编码器和任务特定解码器网络进行特征学习,并通过密集空洞金字塔池化层和注意力网络提取多尺度上下文信息,以及通过优化多任务损失的参数来提高模型性能和效率。实验结果表明,该方法优于其他先进方法。

相关推荐 去reddit讨论

AbdomenAtlas:一种大规模、详细注释的多中心数据集,用于高效的迁移学习和开放算法基准测试

原文约500字,阅读约需2分钟。发表于:

我们引入了最大的腹部 CT 数据集(称为 AbdomenAtlas),它由来自 112 家医院的 20,460 个三维 CT 体积组成,涵盖了不同的人群、地理区域和设施。AbdomenAtlas 由 10 位放射科医生与 AI 算法的帮助下标注的 673K 个腹部解剖结构的高质量掩膜提供支持。该数据集具有大规模、详细标注和多中心的特点,对于 AI...

我们引入了最大的腹部CT数据集(AbdomenAtlas),由112家医院的20,460个三维CT体积组成。该数据集由10位放射科医生与AI算法标注的673K个腹部解剖结构的高质量掩膜提供支持。AbdomenAtlas具有大规模、详细标注和多中心的特点,为AI的开发提供了重要资源,并扩展到更广泛的临床应用领域。此外,AbdomenAtlas还为评估AI算法建立了大规模基准测试,以确保在复杂的临床场景中获得可靠的性能。希望AbdomenAtlas能为更大规模的临床试验奠定基础,并为医学成像领域的从业者提供机会。

相关推荐 去reddit讨论