小红花·文摘 - 小红花技术领袖俱乐部

Qwen VLo: 从“看懂”世界到“描绘”世界

Qwen VLo: 从“看懂”世界到“描绘”世界

Blog on Qwen ·

阿里通义千问团队发布的Qwen多模态大模型具备视觉理解和生成能力，支持多语言。Qwen-VL结合视觉编码器和语言模型进行多任务训练，提升图像和视频处理能力。Qwen2-VL引入动态分辨率和多模态旋转位置嵌入，增强对不同分辨率和动态内容的理解。

一文通透Qwen多模态大模型：从Qwen-VL、Qwen2-VL到Qwen2.5-VL(含我司提问VLM项目的实现思路)

结构之法算法之道 ·

OtterHD-8B是一种高分辨率图像处理的多模态模型，表现优于其他模型。研究表明，视觉编码器的预训练分辨率对模型效果有显著影响。新框架PerceptionGPT通过LLMs的token嵌入提升视觉感知能力，同时减少训练参数和时间。InfiMM-HD和VRWKV等新架构提高了视觉感知能力并降低计算成本。DC$^2$框架在4K和8K图像上显著提升了准确率。Qwen2-VL系列引入动态分辨率机制，优化视觉表示。

VisualRWKV-HD 和 UHD：推动视觉语言模型的高分辨率处理

BriefGPT - AI 论文速递 ·

Qwen2-VL系列是Qwen-VL模型的升级版，解决了视觉处理中的固定分辨率限制。该研究引入动态分辨率机制，能够高效处理不同分辨率的图像，生成更准确的视觉表示，并实现文本、图像和视频的信息融合。Qwen2-VL在多模态基准测试中表现优异，接近领先模型的水平。

Qwen2-VL: Enhancing the Perception of Vision-Language Models of the World at Any Resolution

BriefGPT - AI 论文速递 ·

开源版 Sora：AI 视频生成的高性能实现 | 开源日报 No.291

开源版 Sora：AI 视频生成的高性能实现 | 开源日报 No.291

开源服务指南 ·

本文介绍了一种动态分辨率引导面部表情识别（DRGFER）方法，通过分辨率识别网络（RRN）和多分辨率适应网络（MRAFER）有效识别不同分辨率的面部表情，准确率达到85%。该方法在RAFDB和FERPlus数据集上表现优异，具有良好的鲁棒性，为实际应用提供了有前途的解决方案。

FacEnhance: 使用循环 DDPMs 改善面部表惠

BriefGPT - AI 论文速递 ·

本文提出了一种新的人脸识别框架，结合多分辨率增强和对数指数距离函数，旨在解决低分辨率下的识别问题。同时，研究介绍了一种动态分辨率引导的面部表情识别方法，能够在不同分辨率下有效识别面部表情，保持最佳性能，具有良好的实际应用前景。

MHLR：移动 Haar 学习率调度器用于一 GPU 大规模人脸识别训练

BriefGPT - AI 论文速递 ·