小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

本文探讨了人形机器人在“行走-操作”任务中的挑战,提出了一种集成式全身操控系统,结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transformer(HTD),通过多模态学习提升机器人对接触状态的理解和反应能力,简化了学习过程,旨在提高人形机器人的操作能力和灵活性。

HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法 算法之道
结构之法 算法之道 · 2026-04-23T10:29:30Z

文心4.5系列模型正式开源,包含10款模型,支持多模态学习,提升文本和视觉理解能力。模型在多个基准测试中表现优异,已开源至Hugging Face和GitHub,提供高效的训练和推理框架,支持多种硬件部署。

文心4.5系列模型,正式开源!

百度大脑
百度大脑 · 2025-06-30T02:46:37Z
计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

本文分析了2025年5月25日发布的64篇计算机视觉研究论文,探讨了该领域的主要趋势和技术突破。计算机视觉作为人工智能的基础,涵盖图像分析、医疗影像及视觉与语言结合等主题。研究强调生成模型、医疗应用和多模态学习的重要性,同时关注算法的鲁棒性和公平性,并展望未来研究方向。

计算机视觉的最新进展:生成模型、多模态学习、场景理解与鲁棒性

DEV Community
DEV Community · 2025-05-28T13:15:15Z
CtrlSynth:可控图像-文本合成用于数据高效的多模态学习

本文介绍了可控图像-文本合成管道CtrlSynth,旨在提升多模态学习的数据效率和鲁棒性。通过将图像的视觉语义分解为基本元素,用户可自定义合成策略。CtrlSynth利用预训练模型生成自然多样的合成样本,显著提升了CLIP模型在零-shot分类、图像-文本检索和组合推理等任务中的表现。

CtrlSynth:可控图像-文本合成用于数据高效的多模态学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-27T00:00:00Z
人工智能的进展与挑战:近期研究的综合分析

人工智能(AI)近年来迅速发展,涉及计算机科学和数学等多个领域。研究旨在开发能够感知、推理、学习和自主行动的智能代理。文章讨论了AI研究的关键主题,包括系统可靠性、推理能力、多模态学习、可解释性和自下而上的代理设计。当前AI系统在几何推理和推理过程的脆弱性方面存在局限,未来需关注AI的安全性、伦理和多模态整合。

人工智能的进展与挑战:近期研究的综合分析

DEV Community
DEV Community · 2025-05-26T10:17:20Z

本研究提出了Sat2Sound,一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述,并利用对比学习实现卫星图像与音频的跨模态检索,展示了新的声景合成应用,提供沉浸式声学体验。

Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

该研究探讨了多模态学习中添加和缺失模态对模型性能和公平性的影响。结果表明,添加新模态通常能提升模型性能,但可能影响公平性;而缺失模态则会导致性能和公平性双双下降,突显了实际应用中的鲁棒性问题。

The Multimodal Paradox: How Adding and Missing Modalities Affect Bias and Performance in Multimodal AI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出了一种改进方法,通过对齐预训练模型,提高了多模态学习中Transformer模型的效率,显著缩短了训练和推理时间,具有重要意义。

The Platonic Foundation of Efficient Multimodal Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z

本研究提出RGB-Th-Bench,评估视觉语言模型对RGB-热成像的理解能力,填补多模态理解领域的空白。研究提供1400多个专家注释的问题,显示先进模型在热成像理解上存在显著差距,呼吁推动多模态学习。

RGB-Th-Bench:视觉与热成像理解的密集基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种信息获取调节(InfoReg)的方法,旨在解决多模态学习中的信息获取不平衡问题。该方法通过减缓信息充足模态的获取速度,促进信息不足模态的学习,从而实现更均衡的学习过程,提升多模态网络的整体性能。

Adaptive Unimodal Regulation for Balanced Multimodal Information Acquisition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z
大型语言模型如何理解图像:看得见的人工智能背后的秘密

人工智能正从文本处理转向图像理解,得益于多模态学习。视觉变换器(ViT)和CLIP等模型通过共享嵌入空间,使AI能够同时处理文本和图像。AI将图像分割为小块,并利用自注意力机制理解整体上下文。这一进展提升了AI在搜索和自动图像描述等领域的能力,未来将整合视频和音频等信息。

大型语言模型如何理解图像:看得见的人工智能背后的秘密

DEV Community
DEV Community · 2025-03-22T03:18:00Z

本研究提出了DocVideoQA任务及其数据集,旨在解决文档中心视频理解中的数据稀缺和复杂性问题。通过引入DV-LLaMA模型,利用多模态学习显著提升了理解能力,测试结果优于现有模型。

DocVideoQA: Achieving Comprehensive Understanding of Document-Centric Videos through Question Answering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种名为BREEN的无编码器多模态学习架构,旨在减少训练数据需求。BREEN通过可学习查询和图像专家提高了性能,为传统编码器方法提供了有效的替代方案。

Data-Efficient Encoder-Free Multimodal Learning: BREEN and Learnable Queries

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究提出了一种新方法——数据感知单模采样,以解决多模态学习中的模态失衡问题。实验结果表明,该方法的性能优于多种基线。

Data-Aware Single-Modal Sampling for Rebalancing Multimodal Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z

本研究提出统一单模态适应(U2A)方法,旨在解决多模态学习中的复杂模型和训练策略问题。通过低秩适应联合微调预训练编码器,显著减少可学习参数,并引入掩码标记处理缺失模态。评估结果表明,U2A在多种设置中表现优异。

U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本文探讨了多模态学习中的数据集,指出了研究空白,并分析了数据集在训练和应用中的重要性,强调其对模型性能评估的影响。研究表明,克服这些挑战将推动人工智能的发展。

A Review of Large Multimodal Model Datasets, Application Categories, and Classification Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究探讨了结合术前CT与术中CBCT数据以改善分割精度的方法。提出的多模态学习方法在对齐不完美的情况下显著提升了18种设置中的分割性能,显示出其潜在应用价值。

Preliminary Study on Improving Segmentation by Combining Preoperative CT and Intraoperative CBCT Using Synthetic Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本文提出了一种新的人物再识别方法,结合图像和自然语言描述,通过视觉和语言模型显著提升性能。研究表明,自然语言作为训练监督的有效性,并在多个基准测试中取得优异结果。新框架PLIP和方法π-VL通过细粒度特征学习和多模态学习,进一步增强了再识别效果,尤其在挑战性数据集上表现突出。

大型视觉-语言模型与行人重识别的结合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本文提出KDC-MAE架构,通过结合对比学习、自蒸馏和掩蔽数据建模,显著提升自监督学习中的多模态学习效果。

Knowledge Distillation Contrastive Masked Autoencoder

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了一种多模态竞争正则器(MCR),旨在解决多模态学习系统在优化数据源性能方面的不足。该方法基于博弈论原理,自动平衡信息共享与独特信息,从而显著提升学习性能。

通过博弈论正则化实现多模态融合平衡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码