小红花·文摘

4步出图/4K画质/6倍提速，PiD用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

HyperAI超神经 ·

一张照片，AI就能识别干燥盐溶液的化学成分，准确率近99%！

机器之心 ·

本研究提出了RectifiedHR方法，解决了扩散模型在超出训练分辨率时生成图像效果下降的问题。该方法通过噪声刷新策略和能量校正，能够高效生成高分辨率图像，展现出显著的效率和效果优势。

RectifiedHR: Achieving Efficient High-Resolution Image Generation via Energy Rectification

BriefGPT - AI 论文速递 ·

本研究提出了一种线性注意力方法L$^2$ViT，旨在解决视觉变换器在高分辨率图像应用中的时间和内存复杂性问题。该架构在保持线性计算复杂度的同时，有效捕捉全局和局部特征，实验结果显示其在图像分类任务中达到84.4%的Top-1准确率。

视觉变换器中的线性注意力复兴

BriefGPT - AI 论文速递 ·

本研究提出了一种基于K均值聚类和费舍尔向量聚合的全幻灯片图像分类方法，旨在解决传统机器学习在处理高分辨率图像时的计算挑战。该方法通过补丁特征提取和聚类，展示了在大规模全幻灯片图像分类中的优越准确性和可扩展性。

Scalable Whole Slide Image Representation Using K-Mean Clustering and Fisher Vector Aggregation

BriefGPT - AI 论文速递 ·

本研究探讨了图像超分辨率中的高分辨率图像恢复问题，提出使用变换器模型以克服传统方法的局限性，如感受野有限和高频细节恢复困难。研究表明，变换器与传统网络结合能更好地平衡全球与局部上下文，并指出未来研究的潜在方向。

State-of-the-Art Transformer Models for Image Super-Resolution: Techniques, Challenges, and Applications

BriefGPT - AI 论文速递 ·

本研究提出了一种名为GlobalCom$^2$的新型令牌压缩方法，旨在提高多模态大语言模型在高分辨率图像处理中的推理效率。该方法通过优化保留比率，消除冗余令牌，适应性地保留重要细节，实验结果表明其在性能与效率之间取得了最佳平衡。

Compression with Global Guidance: Training-free Acceleration of High-Resolution Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

LLaVA-Mini是一种高效的多模态模型，通过模态预融合方法将视觉信息压缩为一个令牌，显著降低计算开销。该模型在多个基准测试中表现优于传统模型，提高了处理高分辨率图像和视频的效率与速度。

LLaVA-Mini: An Efficient Large Multimodal Model for Images and Videos Using a Single Vision Token

BriefGPT - AI 论文速递 ·

本研究提出了Pheye架构，有效解决了视觉-语言模型在高分辨率图像中识别细节的不足，尤其在细粒度图像理解和场景文本处理任务中表现出色，显著提升了效率和性能。

Efficient Architecture for High-Resolution Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了FreeScale框架，旨在解决视觉扩散模型在生成高分辨率图像和视频时的高频信息问题。该方法通过融合不同尺度的信息，实现了8K分辨率图像的生成。

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，结合扩散算法与变分自编码器，以降低癌症组织病理学中合成高分辨率图像的计算开销。该方法在保持合理计算要求的同时，实现了高质量图像合成，并在FID评分上优于现有技术，训练时GPU内存使用减少了7%。

Improving Text-Conditioned Latent Diffusion Models for Cancer Pathology

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架U-Know-DiffPAN，旨在改善传统PAN锐化方法在细节恢复方面的不足。该框架通过不确定性映射有效传递特征细节，使学生模型更好地聚焦于困难区域，从而优化高分辨率图像处理。研究表明，U-Know-DiffPAN在多个数据集上优于现有的PAN锐化方法。

U-Know-DiffPAN: An Uncertainty-aware Knowledge Distillation Diffusion Framework for Detail Enhancement in PAN Sharpening

BriefGPT - AI 论文速递 ·

本研究提出了一种局部曲率平滑方法，解决了基于评分的扩散模型训练中的计算负担，特别是雅可比迹的计算问题。该方法显著提升了样本生成性能，尤其在高分辨率图像生成方面表现突出。

基于施泰因恒等式的局部曲率平滑实现高效的评分匹配

BriefGPT - AI 论文速递 ·

本研究提出了一种混合变换器-MAMBA模型，旨在解决多模态大型语言模型在处理高分辨率图像和高帧率视频时的长上下文理解问题。该模型能够高效处理超过10万token的输入，推理效率提升约4倍，实现了低分辨率训练与高分辨率推理的灵活性。

Multimodal Instruction Tuning with Hybrid State Space Models

BriefGPT - AI 论文速递 ·

本文介绍了多种图像生成模型的进展，包括MaskGIT、AutoNAT和现代化的VQGAN。研究表明，基于标记预测的方法在效率和图像质量上具有优势，尤其在高分辨率图像生成中表现突出。这些模型在ImageNet数据集上取得了优异的结果，推动了图像生成领域的创新。

ENAT：重新思考基于令牌的图像合成中的时空交互

BriefGPT - AI 论文速递 ·

本研究提出了ParaGAN框架，解决了生成对抗网络（GAN）训练中的效率低下和不稳定性问题。通过异步训练和不对称优化，ParaGAN将BigGAN的训练时间从15天缩短至14小时，并实现了91%的扩展效率，能够生成高分辨率图像。

ParaGAN: A Scalable Distributed Training Framework for Generative Adversarial Networks

BriefGPT - AI 论文速递 ·

本研究提出两种创新方法，旨在解决高分辨率图像重建中的计算复杂性和先验知识需求问题，同时分析差分隐私噪声对图像质量的影响，并验证了方法的有效性。

梯度引导的条件扩散模型用于私密图像重建：分析差分隐私和去噪的对抗性影响

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，通过高分辨率图像结合特征金字塔网络（FPN）和切分图像的方法，提高钢箱梁裂纹检测的准确性和效率。

Research on Fatigue Crack Detection Methods for Bridge Girders and Columns Based on Deep Learning

BriefGPT - AI 论文速递 ·

本文提出了一种可扩展的结构运动问题求解方法，通过相机聚类算法将大型问题分解为子问题，利用局部增量SfM的相对位置实现准确的全局相机位姿重建。该方法在处理超过一百万张高分辨率图像的城市级数据集时展现出卓越的准确性和鲁棒性。

重力对齐的旋转平均与圆形回归

BriefGPT - AI 论文速递 ·

本研究提出了多模态大型语言模型（MLLMs）及其改进方法，显著提升了视觉理解和文本生成能力。通过引入新模型和数据集，优化了高分辨率图像的处理，展示了在视觉任务中的优越性能，为未来研究奠定基础。

豹：一种用于文本丰富的多图像任务的视觉语言模型

BriefGPT - AI 论文速递 ·