2024年是幸福的一年,陪伴女儿,工作转向多模态算法,完成了一些开源项目。思考人类与AI的关系,期待未来创意产品。参与聚会与旅行,享受家庭时光,读书和观影丰富生活。
本研究提出了一种名为TL-CLIP的两阶段输电线路缺陷识别模型,旨在解决传统模型在领域知识和泛化能力不足的问题。该模型利用电力特定的多模态算法,显著提升了缺陷识别的性能,尤其在分类和检测任务中表现优异。
本文研究了多模态算法在多媒体系统中进行视频场景分类的应用,通过识别单帧图像特征进行分类。clip和blip是两种经典的多模态算法,能够处理图像和文本数据,并在多种任务上展现出卓越性能。实验结果表明,基于clip的方案在准确率和性能上优于传统算法。未来,多媒体实验室将继续探索引入更多大模型和多模态技术,提高整个系统的性能。
本文介绍了越南多语言视觉问答基准数据集EVJVQA及其相关研究,涉及多个模型和方法的开发与评估,如OpenViVQA和BARTPhoBEiT,旨在提升越南语视觉问答系统的性能,推动低资源语言的多模态算法发展。
本文提出了多种新方法来解决微表情识别(MER)问题,包括动态分段稀疏成像模块和分段运动关注空间时间网络,实验结果表明这些方法优于现有技术。此外,研究探讨了面部肌肉运动对微表情识别的影响,并提出了基于Transformer的多模态算法,取得了高准确率,显示出在微表情分析中的有效性。
本文利用机器学习预测非信号控制人行横道中行人与车辆的交互,提出新模型以提高预测准确率。研究发现,90%以上的行人在过马路前会注视车辆,且其决策受到时间到碰撞等因素的影响。通过多模态算法分析环境特征,提升行人安全性,为交通安全提供新见解。
完成下面两步后,将自动完成登录并继续当前操作。