小红花·文摘

$T-Rex——给VLA带上触觉的灵巧操作框架：先通过人类视频做预训练，再通过富含触觉的中期训练对齐交互，最后利用极少量目标域演示以快速适配下游任务$

T-Rex——给VLA带上触觉的灵巧操作框架：先通过人类视频做预训练，再通过富含触觉的中期训练对齐交互，最后利用极少量目标域演示以快速适配下游任务

结构之法算法之道 ·

本研究提出了一种多模态框架，结合声学、视觉和文本特征，提升了方言在古典汉诗情感分析中的应用准确性，推动了相关研究的发展。

A Multimodal Chinese Sentiment Analysis Framework with Dialects and Visualization: Application to Classical Poetry

BriefGPT - AI 论文速递 ·

本研究探讨了视觉触觉传感器与IMU数据手套在15种人类活动识别中的表现，提出了结合触觉与运动数据的多模态框架，结果表明多模态方法的准确性优于单一模态，显示了其在合作机器人中的应用潜力。

人类活动识别的比较研究：运动、触觉与多模态方法

BriefGPT - AI 论文速递 ·

本研究提出了一种基于变换器的多模态框架，旨在提高医疗器械风险分类的准确性。该框架结合文本和视觉信息，利用跨注意力机制和自我训练策略，在有限监督下实现更好的泛化，实验结果显示准确率高达90.4%。

Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态框架，结合计算机视觉与大型语言模型，自动生成外科视频摘要，旨在改善手术文档记录、支持外科培训及术后分析。该方法在CholecT50数据集上表现优异，显示出其在外科报告中的潜在影响。

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI

BriefGPT - AI 论文速递 ·

本研究开发了开源多模态框架Estuary，旨在解决社交智能代理(SIA)的用户中心设计问题，表明该框架对未来SIA技术发展具有重要指导意义。

Optimizing SIA Development: A User-Centered Design Case Study

BriefGPT - AI 论文速递 ·

仅输入prompt与序列，准确率超90%，UC伯克利等提出文本生成蛋白质多模态框架

机器之心 ·

如何在本地安装DeepSeek Janus Pro 7B？

DEV Community ·

本研究探讨如何从短视频片段理解复杂事件，提出了一种多模态框架，将事件提取视为三阶段检索任务，并引入了注释丰富的基准数据集MultiVENT-G，展示了该方法在事件理解中的潜力与挑战。

Grounding Partially Defined Events in Multimodal Data

BriefGPT - AI 论文速递 ·

本研究提出了一种基于知识库的视觉问答模型，结合视觉知识检索和问题回答方法，显著提升了在OK-VQA挑战赛中的表现。该模型通过多模态框架和语言指导，在多个数据集上实现了高准确率，展示了知识增强视觉问答的潜力。

学习压缩上下文以实现高效的基于知识的视觉问答

BriefGPT - AI 论文速递 ·

本文提出了一种新的多模态框架，用于检测恶意言论，特别是通过Memes表达的内容。该框架在2020年恶意Memes挑战中表现优异，并通过语义和多模态上下文提升了模型性能。同时，开发了DisMultiHate框架，增强了对多模态内容的分类和解释能力。此外，研究探讨了社交媒体谣言的检测方法，并提出了新的数据集和模型，以提高自动审查效率。

仇恨的宣传：多模态分析阿拉伯迷因与多智能体大语言模型

BriefGPT - AI 论文速递 ·

本研究提出了一种多模态框架，将结构数据与文本描述结合，利用大型语言模型（LLMs）提高材料属性预测的准确性。研究展示了MatInFormer和LLaMP模型在晶体结构和性质预测中的有效性，强调了LLMs在材料科学中的潜力和应用前景。

利用大型语言模型进行材料和分子属性预测的回归研究

BriefGPT - AI 论文速递 ·

Video-LLaMA是一种多模态框架，结合视觉和音频编码器与大型语言模型，提升视频内容理解能力。该模型在长视频问答和字幕生成等任务中表现优异，解决了长视频处理中的信息丢失和推理速度慢的问题，展现出良好的应用前景。

TC-LLaVA：在考虑时间因素的情况下重新思考从图像到视频理解的转变

BriefGPT - AI 论文速递 ·

Video-LLaMA是一种多模态框架，结合视觉和音频编码器与大型语言模型，提升视频内容理解能力。研究评估了Video-LLM在视频理解中的表现，揭示其与人类的差距，并展示其在空间时间推理和通识知识方面的优势。通过改进模型结构和训练策略，LongVILA显著提高了长视频的上下文处理能力，展现了在视频理解领域的巨大潜力。

袋鼠：支持长视频输入的强大视频语言模型

BriefGPT - AI 论文速递 ·

该研究提出了多种自动上色方法，包括基于条件随机场的变分自编码器、生成对抗网络和多模态框架，利用音频和视觉信息提升上色效果，解决了多项限制性问题，实验结果表明其性能优于现有技术。

ControlCol: 自动演讲者视频着色的可控性

BriefGPT - AI 论文速递 ·

本文介绍了一种基于语音的3D面部动画生成方法，采用自监督学习和多模态框架，提升了面部表情的生动性和同步性。研究提出了EMOTE和EDTalk等系统，解决了面部动画中的情感表达和数据限制问题，实验结果显示其性能优于现有技术。

DEEPTalk：基于语音驱动的动态情感嵌入3D面部动画

BriefGPT - AI 论文速递 ·

本文提出了一种基于大型语言模型的多模态框架，用于检测恶意互联网迷因，特别是表情包。通过集成学习和视觉语言模型，研究提高了检测性能，并在相关挑战中取得了优异成绩。该方法结合图像和文本信息，探索半监督学习技术以提升分类准确率。

Evolver：链式演进引导下的大型多模态模型提升恶意模仿推测

BriefGPT - AI 论文速递 ·

该研究提出了一种新型骨骼感知多模态框架，以提高手语识别的准确率。实验结果表明，该框架在多个数据集上表现优异，尤其在手语识别挑战赛中取得了突出成绩。

SEDS：用于手语检索的语义增强双流编码器

BriefGPT - AI 论文速递 ·

本文探讨了多种讽刺检测方法，包括基于层次结构的模型和多模态框架，利用外部知识资源提升检测性能。研究表明，结合上下文和认知特征可显著提高识别准确性。

大型语言模型中的讽刺检测是一种逐步推理过程吗？

BriefGPT - AI 论文速递 ·

本文探讨了多种红外物体跟踪方法，特别是利用合成数据和深度学习技术的模型。研究表明，合成数据训练能显著提升跟踪性能，结合自然语言描述和多模态框架也能提高目标定位的准确性。多个实验验证了这些方法在不同基准测试中的优越表现。

借助自然语言建模和坐标序列生成增强热红外跟踪

BriefGPT - AI 论文速递 ·