林俊旸强调,未来的智能体应具备自主学习和环境交互能力,以推动AI在复杂任务中的应用。他指出,解决长尾问题是AI的关键,未来中国在AI领域有望迎头赶上。
本研究分析了大规模视觉语言模型中的长尾问题,发现训练数据在头部概念上过度代表,而尾部概念被低估。提出自适应数据精炼框架(ADR),通过数据重平衡和合成,显著改善了长尾问题,提升了LLaVA 1.5的平均性能4.36%。
本研究提出了一种结合CNN和弱监督学习的语义分割方法,通过显著性和注意力地图提升性能,无需精确标签。采用新损失函数和对比学习解决数据不平衡问题,增强模型鲁棒性。同时,研究关注长尾语义分割,提出改进算法和评估系统,推动相关领域的实证研究。
本文介绍了多种人-物互动(HOI)检测的新方法,如DiffHOI、KI2HOI和GeoHOI。这些方法利用预训练模型和新颖的解码器,提高了检测性能,解决了长尾问题和零样本学习的挑战。实验结果表明,这些方法在HICO-DET和V-COCO数据集上表现优异,推动了HOI检测技术的发展。
本文介绍了多种场景图生成(SGG)模型的改进方法,包括TISGG模型、IETrans方法和自我训练框架(ST-SGG)。这些方法旨在解决长尾问题和三元组识别困难,实验结果表明它们在性能上有显著提升。
本文探讨了多种推荐系统模型的创新,包括基于小型语言模型的推荐模型SLMRec,显著减少参数并加速训练和推断。同时,提出了结合逻辑推理的序列推荐框架,利用多模态信息和检索增强技术提升推荐性能,解决长尾用户和商品问题。实验结果表明这些方法在实际应用中表现优越。
本文介绍了多种创新的场景图生成方法,包括综合连续场景图生成(CSEGG)、边缘双场景图生成(EdgeSGG)和终身场景图生成(LSGG)。研究表明,这些方法在对象关系预测和长尾问题上取得显著提升,尤其在视觉语言任务中表现优异。此外,空间-时间知识嵌入变压器(STKET)和Text-Image结合模型(TISGG)在生成视频场景图和解决长尾问题方面也展现了优势。
本研究介绍了一种自我训练框架(ST-SGG),通过利用未标注的三元组来缓解场景图生成模型在长尾问题上的困扰。同时提出了一种新型伪标记技术(CATM)和图结构学习器(GSL),对现有场景图生成模型具有益处。实验证明ST-SGG在各种场景图生成模型中有效,特别是在细粒度谓词类的性能提升方面。
本文提出了一种基于多任务学习的动态场景图生成模型,结合局部和全局交互信息,全面理解图像的视觉环境。使用长时人体动作监督模型生成符合约束条件且避免学习尾谓词的场景图。实验证明该框架改善了动态场景图生成,缓解了长尾问题。
完成下面两步后,将自动完成登录并继续当前操作。