小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种多模态框架,结合声学、视觉和文本特征,提升了方言在古典汉诗情感分析中的应用准确性,推动了相关研究的发展。

A Multimodal Chinese Sentiment Analysis Framework with Dialects and Visualization: Application to Classical Poetry

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究探讨了视觉触觉传感器与IMU数据手套在15种人类活动识别中的表现,提出了结合触觉与运动数据的多模态框架,结果表明多模态方法的准确性优于单一模态,显示了其在合作机器人中的应用潜力。

人类活动识别的比较研究:运动、触觉与多模态方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了一种基于变换器的多模态框架,旨在提高医疗器械风险分类的准确性。该框架结合文本和视觉信息,利用跨注意力机制和自我训练策略,在有限监督下实现更好的泛化,实验结果显示准确率高达90.4%。

Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种多模态框架,结合计算机视觉与大型语言模型,自动生成外科视频摘要,旨在改善手术文档记录、支持外科培训及术后分析。该方法在CholecT50数据集上表现优异,显示出其在外科报告中的潜在影响。

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

本研究开发了开源多模态框架Estuary,旨在解决社交智能代理(SIA)的用户中心设计问题,表明该框架对未来SIA技术发展具有重要指导意义。

Optimizing SIA Development: A User-Centered Design Case Study

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-20T00:00:00Z
仅输入prompt与序列,准确率超90%,UC伯克利等提出文本生成蛋白质多模态框架

研究者提出了多模态框架ProteinDT,通过对齐蛋白质序列与文本描述,辅助蛋白质设计。实验表明,该框架在多项任务中表现优异,推动了蛋白质工程的发展。

仅输入prompt与序列,准确率超90%,UC伯克利等提出文本生成蛋白质多模态框架

机器之心
机器之心 · 2025-04-03T06:37:55Z
如何在本地安装DeepSeek Janus Pro 7B?

Janus-Pro是基于DeepSeek-LLM-7B构建的多模态框架,旨在统一理解与生成任务。通过分离视觉编码路径,解决了视觉理解与生成的冲突,性能超越传统模型,适用于多种应用,成为下一代视觉语言模型的有力竞争者。

如何在本地安装DeepSeek Janus Pro 7B?

DEV Community
DEV Community · 2025-01-28T14:14:56Z

本研究探讨如何从短视频片段理解复杂事件,提出了一种多模态框架,将事件提取视为三阶段检索任务,并引入了注释丰富的基准数据集MultiVENT-G,展示了该方法在事件理解中的潜力与挑战。

Grounding Partially Defined Events in Multimodal Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本研究提出了一种基于知识库的视觉问答模型,结合视觉知识检索和问题回答方法,显著提升了在OK-VQA挑战赛中的表现。该模型通过多模态框架和语言指导,在多个数据集上实现了高准确率,展示了知识增强视觉问答的潜力。

学习压缩上下文以实现高效的基于知识的视觉问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文提出了一种新的多模态框架,用于检测恶意言论,特别是通过Memes表达的内容。该框架在2020年恶意Memes挑战中表现优异,并通过语义和多模态上下文提升了模型性能。同时,开发了DisMultiHate框架,增强了对多模态内容的分类和解释能力。此外,研究探讨了社交媒体谣言的检测方法,并提出了新的数据集和模型,以提高自动审查效率。

仇恨的宣传:多模态分析阿拉伯迷因与多智能体大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本研究提出了一种多模态框架,将结构数据与文本描述结合,利用大型语言模型(LLMs)提高材料属性预测的准确性。研究展示了MatInFormer和LLaMP模型在晶体结构和性质预测中的有效性,强调了LLMs在材料科学中的潜力和应用前景。

利用大型语言模型进行材料和分子属性预测的回归研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

Video-LLaMA是一种多模态框架,结合视觉和音频编码器与大型语言模型,提升视频内容理解能力。该模型在长视频问答和字幕生成等任务中表现优异,解决了长视频处理中的信息丢失和推理速度慢的问题,展现出良好的应用前景。

TC-LLaVA:在考虑时间因素的情况下重新思考从图像到视频理解的转变

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

Video-LLaMA是一种多模态框架,结合视觉和音频编码器与大型语言模型,提升视频内容理解能力。研究评估了Video-LLM在视频理解中的表现,揭示其与人类的差距,并展示其在空间时间推理和通识知识方面的优势。通过改进模型结构和训练策略,LongVILA显著提高了长视频的上下文处理能力,展现了在视频理解领域的巨大潜力。

袋鼠:支持长视频输入的强大视频语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

该研究提出了多种自动上色方法,包括基于条件随机场的变分自编码器、生成对抗网络和多模态框架,利用音频和视觉信息提升上色效果,解决了多项限制性问题,实验结果表明其性能优于现有技术。

ControlCol: 自动演讲者视频着色的可控性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了一种基于语音的3D面部动画生成方法,采用自监督学习和多模态框架,提升了面部表情的生动性和同步性。研究提出了EMOTE和EDTalk等系统,解决了面部动画中的情感表达和数据限制问题,实验结果显示其性能优于现有技术。

DEEPTalk:基于语音驱动的动态情感嵌入3D面部动画

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-12T00:00:00Z

本文提出了一种基于大型语言模型的多模态框架,用于检测恶意互联网迷因,特别是表情包。通过集成学习和视觉语言模型,研究提高了检测性能,并在相关挑战中取得了优异成绩。该方法结合图像和文本信息,探索半监督学习技术以提升分类准确率。

Evolver:链式演进引导下的大型多模态模型提升恶意模仿推测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

该研究提出了一种新型骨骼感知多模态框架,以提高手语识别的准确率。实验结果表明,该框架在多个数据集上表现优异,尤其在手语识别挑战赛中取得了突出成绩。

SEDS:用于手语检索的语义增强双流编码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

本文探讨了多种讽刺检测方法,包括基于层次结构的模型和多模态框架,利用外部知识资源提升检测性能。研究表明,结合上下文和认知特征可显著提高识别准确性。

大型语言模型中的讽刺检测是一种逐步推理过程吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

本文探讨了多种红外物体跟踪方法,特别是利用合成数据和深度学习技术的模型。研究表明,合成数据训练能显著提升跟踪性能,结合自然语言描述和多模态框架也能提高目标定位的准确性。多个实验验证了这些方法在不同基准测试中的优越表现。

借助自然语言建模和坐标序列生成增强热红外跟踪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

本文介绍了一种基于多模式提示的图像质量评估方法,结合视觉和语言数据,提升了评估的鲁棒性和准确性。研究提出了多模态框架IP-IQA和CPL方法,显著提高了通用化性能。此外,提出的无监督提示学习(UPL)方法在多个数据集上表现优异,促进了多模态生成领域的发展。

盲人视觉 - 语言一致性引导的多模态提示学习用于 AI 生成图像质量评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码