小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

PAM(Perceive Anything Model)模型通过3B参数实现图像和视频的分割、识别与描述,支持多种输出,且数据已开源。该模型在多个基准测试中表现优异,具备高效推理和轻量化特点,适用于AR/VR等场景。

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

量子位
量子位 · 2025-06-14T12:01:45Z

本研究提出了一种新方法VFAT-WS,旨在提高视频识别中的对抗训练效率和鲁棒性,通过时间频率增强和一致性正则化,训练速度提升近490%。

Fast Adversarial Training for Video Based on Weak-to-Strong Spatio-Temporal Consistency in the Frequency Domain

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

SnapPix系统通过传感器内的模拟域压缩,解决了边缘计算中的能量有效图像采集问题。该系统与视觉模型共同设计,显著提升了视频识别和重建性能,能耗降低高达15.4倍。

SnapPix: In-Sensor Compression for Edge Vision Based on Efficient Coding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出了一种新的视频识别方法Uni-AdaFocus,旨在解决视频理解中的数据冗余问题。该方法整合了时空动态计算,显著提高了计算效率,并在多个基准数据集上超越了现有技术。

Uni-AdaFocus: Spatial-Temporal Dynamic Computation in Video Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

本研究利用SlowFast深度神经网络分析行车记录仪中的近失事件,显著提高了交通近失视频的识别准确性,为提升交通安全和理解事故中的认知错误提供了新见解。

Using SlowFast Networks to Analyze Near-Miss Incidents in Dashcam Videos

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本文介绍了SlowFast网络在视频识别中的应用,通过结合Slow路径和Fast路径来提高识别精度。同时,研究了SpeedNet模型的自我监督学习、视频加速技术、视频生成模型的优化及Contextualized World Models的引入,显著提升了机器人操作和自动驾驶等领域的样本效率。此外,提出了VSTAR方法以改善长视频生成的动态性,并开发了新数据集LVD-2M以推动长视频生成研究。

SlowFast-VGen:面向动作驱动的长视频生成的慢速-快速学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究探讨了视频生成过程中的先验知识是否适用于视频识别,并提出了GenRec,这是一种将生成与识别联合优化的统一框架。GenRec通过随机帧条件过程实现了显著的表现,在信息有限的情况下,其识别准确率达到75.8%和87.2%,展示了其在视频生成和识别任务中的潜在影响力。

GenRec:使用扩散模型统一视频生成与识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

VideoMamba是一种新型改进的纯Mamba架构,用于视频识别。它利用了Mamba的线性复杂度和选择性SSM机制,实现高效处理。能够捕捉非连续空间和连续时间信息之间的复杂关系,展现出竞争力和卓越的效率。突显了VideoMamba作为视频理解工具的潜力,并为未来视频分析研究提供了简单有效的基准。

DemMamba:基于频率辅助的无对齐原始视频去摩尔纹方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

VideoMamba是一种新型的纯Mamba架构,专为视频识别设计。它利用线性复杂度和选择性SSM机制,实现更高效的处理。VideoMamba能够捕捉非连续空间和连续时间信息之间的复杂关系,展现出竞争力和卓越的效率。它是视频理解的强大工具,为未来视频分析研究提供了一个简单而有效的基准。

PoseMamba:基于双向全局 - 局部时空状态空间模型的单目 3D 人体姿态估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

VideoMamba是一种新型改进的纯Mamba架构,专为视频识别设计。它利用了Mamba的线性复杂度和选择性SSM机制,实现了更高效的处理。VideoMamba能够捕捉非连续空间和连续时间信息之间的复杂关系,展现出竞争力和卓越的效率。这项工作突显了VideoMamba作为视频理解工具的潜力,为未来视频分析研究提供了一个简单而有效的基准。

ST-Mamba:利用有限数据恢复交通流量估计的时空猛菈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

PosMLP-Video是一种轻量但强大的视频识别主干,通过使用高效的相对位置编码(RPE)解决图像理解任务中的挑战,扩展了图像PosMLP的位置门控单元到三种时空变种,实现模型简化且性能保持良好。

PosMLP-Video:高效视频识别的时空相对位置编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本文提出了一种双重注意力块的方法,可提高图像/视频识别性能,在ImageNet-1k数据集和动作识别任务中取得最先进的成果。

双边网络与残差 U 块和双向引导注意力的实时语义分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本文提出了一种自动重建和交互的3D运动方法,能够估计人和物体的3D姿势、接触位置、力和扭矩,并在输入视频中自动识别出接触位置和时间。该方法在真实数据集和互联网视频数据集中验证了其性能。

基于物理模型的刚体目标跟踪与 RGB-D 视频摩擦滤波

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-27T00:00:00Z

该文介绍了AVGN音视频感知网络,使用划分视频片段、轻量级编码器和音频增强等技术,实现了高效的视频识别。该网络在多个基准测试中取得了最高性能并实现了更快的处理速度。

连续音频 - 视觉学习的增量聚类网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码