本研究提出了一种多模态框架,结合声学、视觉和文本特征,提升了方言在古典汉诗情感分析中的应用准确性,推动了相关研究的发展。
本研究探讨了视觉触觉传感器与IMU数据手套在15种人类活动识别中的表现,提出了结合触觉与运动数据的多模态框架,结果表明多模态方法的准确性优于单一模态,显示了其在合作机器人中的应用潜力。
本研究提出了一种基于变换器的多模态框架,旨在提高医疗器械风险分类的准确性。该框架结合文本和视觉信息,利用跨注意力机制和自我训练策略,在有限监督下实现更好的泛化,实验结果显示准确率高达90.4%。
本研究提出了一种多模态框架,结合计算机视觉与大型语言模型,自动生成外科视频摘要,旨在改善手术文档记录、支持外科培训及术后分析。该方法在CholecT50数据集上表现优异,显示出其在外科报告中的潜在影响。
本研究开发了开源多模态框架Estuary,旨在解决社交智能代理(SIA)的用户中心设计问题,表明该框架对未来SIA技术发展具有重要指导意义。
研究者提出了多模态框架ProteinDT,通过对齐蛋白质序列与文本描述,辅助蛋白质设计。实验表明,该框架在多项任务中表现优异,推动了蛋白质工程的发展。
Janus-Pro是基于DeepSeek-LLM-7B构建的多模态框架,旨在统一理解与生成任务。通过分离视觉编码路径,解决了视觉理解与生成的冲突,性能超越传统模型,适用于多种应用,成为下一代视觉语言模型的有力竞争者。
本研究探讨如何从短视频片段理解复杂事件,提出了一种多模态框架,将事件提取视为三阶段检索任务,并引入了注释丰富的基准数据集MultiVENT-G,展示了该方法在事件理解中的潜力与挑战。
本研究提出了一种基于知识库的视觉问答模型,结合视觉知识检索和问题回答方法,显著提升了在OK-VQA挑战赛中的表现。该模型通过多模态框架和语言指导,在多个数据集上实现了高准确率,展示了知识增强视觉问答的潜力。
本文提出了一种新的多模态框架,用于检测恶意言论,特别是通过Memes表达的内容。该框架在2020年恶意Memes挑战中表现优异,并通过语义和多模态上下文提升了模型性能。同时,开发了DisMultiHate框架,增强了对多模态内容的分类和解释能力。此外,研究探讨了社交媒体谣言的检测方法,并提出了新的数据集和模型,以提高自动审查效率。
本研究提出了一种多模态框架,将结构数据与文本描述结合,利用大型语言模型(LLMs)提高材料属性预测的准确性。研究展示了MatInFormer和LLaMP模型在晶体结构和性质预测中的有效性,强调了LLMs在材料科学中的潜力和应用前景。
Video-LLaMA是一种多模态框架,结合视觉和音频编码器与大型语言模型,提升视频内容理解能力。该模型在长视频问答和字幕生成等任务中表现优异,解决了长视频处理中的信息丢失和推理速度慢的问题,展现出良好的应用前景。
Video-LLaMA是一种多模态框架,结合视觉和音频编码器与大型语言模型,提升视频内容理解能力。研究评估了Video-LLM在视频理解中的表现,揭示其与人类的差距,并展示其在空间时间推理和通识知识方面的优势。通过改进模型结构和训练策略,LongVILA显著提高了长视频的上下文处理能力,展现了在视频理解领域的巨大潜力。
该研究提出了多种自动上色方法,包括基于条件随机场的变分自编码器、生成对抗网络和多模态框架,利用音频和视觉信息提升上色效果,解决了多项限制性问题,实验结果表明其性能优于现有技术。
本文介绍了一种基于语音的3D面部动画生成方法,采用自监督学习和多模态框架,提升了面部表情的生动性和同步性。研究提出了EMOTE和EDTalk等系统,解决了面部动画中的情感表达和数据限制问题,实验结果显示其性能优于现有技术。
本文提出了一种基于大型语言模型的多模态框架,用于检测恶意互联网迷因,特别是表情包。通过集成学习和视觉语言模型,研究提高了检测性能,并在相关挑战中取得了优异成绩。该方法结合图像和文本信息,探索半监督学习技术以提升分类准确率。
该研究提出了一种新型骨骼感知多模态框架,以提高手语识别的准确率。实验结果表明,该框架在多个数据集上表现优异,尤其在手语识别挑战赛中取得了突出成绩。
本文探讨了多种讽刺检测方法,包括基于层次结构的模型和多模态框架,利用外部知识资源提升检测性能。研究表明,结合上下文和认知特征可显著提高识别准确性。
本文探讨了多种红外物体跟踪方法,特别是利用合成数据和深度学习技术的模型。研究表明,合成数据训练能显著提升跟踪性能,结合自然语言描述和多模态框架也能提高目标定位的准确性。多个实验验证了这些方法在不同基准测试中的优越表现。
本文介绍了一种基于多模式提示的图像质量评估方法,结合视觉和语言数据,提升了评估的鲁棒性和准确性。研究提出了多模态框架IP-IQA和CPL方法,显著提高了通用化性能。此外,提出的无监督提示学习(UPL)方法在多个数据集上表现优异,促进了多模态生成领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。