Hugging Face 发布了 FineVision,一个包含 1730 万张图片和近 100 亿个答案标记的开放多模态数据集。该数据集经过严格筛选和系统评级,提升了视觉语言模型的训练质量,支持多种新兴任务,减少数据泄漏,推动研究的可重复性和可访问性。
本研究提出了一种基于RGB-事件的行人属性识别方法,并推出了首个大规模多模态数据集EventPAR,涵盖50个属性和六种情感。通过重训练主流模型并引入RWKV框架,取得了先进的识别性能,为未来研究提供了数据和算法基准。
本研究提出了一个农作物疾病诊断的多模态数据集(CDDM),包含137,000张图像和100万个问答对,结合视觉与文本数据,提升农业专家的诊断能力。通过低秩适应微调策略,显著提高了多模态模型在疾病诊断中的表现。
本研究探讨了语言模型在理解元音发音机制方面的不足,尤其是舌位与元音之间的关系。通过多模态数据集发现,模型在有示例时能够理解这些关系,但在没有示例时则表现出困难。
本研究提出了一种多模态数据集,旨在展示现实生活中的规范与非规范行为,以帮助儿童学习社会原则。该数据集可用于训练遵循社会规范的人工智能系统,具有重要的应用价值。
本研究提出了Motion-X++,一个大规模多模态3D全身人体运动数据集,解决了现有数据集中面部表情、手势和细粒度姿态描述不足的问题。该数据集包含1915万个3D全身姿态注释,提升了自然运动生成的准确性和应用潜力。
大规模语言模型推动了人工智能,特别是在遥感领域。研究构建了高质量的遥感图像字幕数据集RSICap,促进了视觉语言模型的训练与评估。SkyScript和EarthGPT等模型通过多模态数据集提升了遥感任务的性能,解决了语言偏见和模型局限性问题。
本研究提出了一种快速构建日语多模态数据集的方法,解决了非英语语言资源不足的问题。实验结果表明,基于本土数据集训练的视觉语言模型优于依赖机器翻译的模型。
本研究针对罗马尼亚语表情包数据不足的问题,创建了一个多模态表情包数据集,并进行了详细注释。实验表明,AI工具在处理表情包方面仍需改进,强调了该数据集的实用性和未来研究的重要性。
研究利用多模态数据集分析用户通过图像表达偏好,涵盖从风景到艺术的视觉表达。用户请求推荐相似感觉的书籍或音乐。实验表明,大型基础模型在任务中存在局限性,视觉-语言模型未明显优于语言模型。提出的图像链推理方法取得了改进,并公开了代码和数据集。
本研究提出了一种新的分析方法,用于捕捉微小面部动作,并成功桥接了不同数据域之间的差距。通过创建多模态数据集FACEMORPHIC,并利用跨模态监督技术,实现了有效的神经形态面部分析。
该研究介绍了一个用户通过图像表达偏好的多模态数据集,并发现大型基础模型在这些任务中的局限性。研究提出了图像链推理的方法,取得了显著改进。代码和数据集已公开发布。
华盛顿大学、Salesforce Research和斯坦福大学等机构联合构建了规模空前的开源多模态数据集MINT-1T,包含一万亿文本token和三十亿张图像。该数据集经历了多个步骤,包括数据收集、过滤和去重。实验结果显示,在MINT-1T数据集上训练的模型在多个基准任务上表现优于之前的数据集。这个超大规模的开源多模态数据集有望成为多模态大模型的起点。
ERIT是一个包含老年人对各种情境的反应的多模态数据集,包括文本、图像和情绪标签。该数据集促进了轻量级多模态融合研究和机器学习视觉情感识别中对年龄群体的情感识别的研究。实验证明了该数据集在神经多模态融合研究中的重要性。
该研究提出了一个用于研究毫米波车到车通信的大规模多模态数据集,包括多种传感器数据,覆盖不同地区和行驶情况。数据集提供了详细的统计信息,适用于机器学习应用。
该研究介绍了一种新的基准分析方法,用于从野外单眼图像中进行3D犬姿势估计。研究人员使用了多模态数据集3DDogs-Lab,并创建了经过自然处理的数据集3DDogs-Wild,用于提高基于RGB图像的姿势检测器的效果。研究结果表明,在野外数据上使用3DDogs-Wild进行模型训练可以实现更好的性能。此外,研究人员还对不同的姿势估计模型进行了详细分析,揭示了它们的优势和不足。这些发现和提供的数据集将为推进3D动物姿势估计提供有价值的见解。
该论文讨论了一个用于俄语科学论文的自动文本摘要任务的多模态数据集。实验结果表明,SBER的Gigachat和Yandex的YandexGPT语言模型在该任务上表现良好。数据集包含420篇论文,可在指定的URL上获取。
该论文创建了一个多模态数据集,包含文本、表格和图形,并测试了现有的语言模型在自动文本摘要任务上的表现。实验使用了SBER的Gigachat和Yandex的YandexGPT两个语言模型。数据集包含420篇论文,可在指定的URL上获取。
该文章介绍了一个新的多模态数据集,用于检测和定位多组件扩展射电星系及其红外主机。数据集包括2800个射电和红外图像中的4155个星系实例,并提供了类别、边界框、分割掩模和位置信息。作者在数据集上进行了基准测试,并提出了一种新的多模态方法。
本文介绍了一个多模态综合数据集,包含图像和三维数据,用于有效训练深度网络架构。结果显示该数据集在合成数据和实际数据的适应方面表现良好。
完成下面两步后,将自动完成登录并继续当前操作。