小红花·文摘

FocalLens：指令调优实现零-shot条件图像表示

Apple Machine Learning Research ·

LaViC框架旨在解决对话推荐系统中缺乏细致视觉信息的问题。通过整合图像表示，LaViC实现了文本与视觉特征的统一捕捉，显著提升了推荐系统的性能，强调了视觉数据在捕捉产品属性中的重要性。

LaViC: Adapting Large Vision-Language Models for Visually-Aware Conversational Recommendation Systems

BriefGPT - AI 论文速递 ·

本研究提出了一种二维高斯喷溅（2DGS）方案，解决了隐式神经表示在图像表示中的高内存消耗和慢解码速度问题，成功利用高斯点表示大型图像。

Large Images as Gaussian Distributions: High-Quality Representation of Large Images Based on 2D Gaussian Splash

BriefGPT - AI 论文速递 ·

本研究提出了一种新的图像令牌化方法GaussianToken，克服了现有方法在离散代码本空间的限制。该方法通过将编码样本表示为多个二维高斯特征，显著增强了图像表示能力，实验结果表明其在多个基准数据集上的重建性能具有竞争力。

Gaussian Token: An Effective Image Tokenization Method with 2D Gaussian Splatting

BriefGPT - AI 论文速递 ·

本研究提出了Table2Image框架，将表格数据转换为图像表示，以提高分类的准确性和可解释性，提供可扩展且可靠的解决方案。

表格到图像：具有现实图像转换的可解释表格数据分类

BriefGPT - AI 论文速递 ·

通过空间条件增强JEPAs：鲁棒且高效的表示学习

Apple Machine Learning Research ·

本文探讨了对比学习在图像表示学习中的应用，提出了最大化互信息的目标函数，并强调选择难度较大的负样本以提升性能。研究表明，该方法在分类、检测和分割任务中表现优越，同时分析了对比学习的理论基础及其在多个领域的应用，提出了未来研究方向和挑战。

通过高斯混合模型理解对比学习

BriefGPT - AI 论文速递 ·

本文介绍了一种新型视觉状态空间模型EfficientVMamba，该模型结合卷积和选择性扫描方法，显著提高了图像表示效果并降低了计算复杂性。在多种视觉任务中，尤其是在高分辨率输入下，该模型展现出竞争力的准确率提升。

QuadMamba: A Quadtree-Based Selective Scanning Visual State Space Model Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种反事实对比学习框架，旨在提高图像表示质量，克服传统对比学习中数据增强策略的局限性。通过因果图像合成技术生成更符合实际的对比正样本，实验证明该方法在医学影像数据集上显著提升了模型的鲁棒性和性能，尤其在训练集中代表性不足的情况下表现优异。

Robust Image Representations with Counterfactual Contrastive Learning

BriefGPT - AI 论文速递 ·

本文综述了计算机视觉中去噪扩散模型的应用，介绍了多种异常检测方法及其在不同数据集上的表现，提出了新的图像表示方法和数据增强策略，显著提高了检测准确性和鲁棒性，展示了扩散模型在工业缺陷检测中的潜力。

将扩散模型的能力引入缺陷检测

BriefGPT - AI 论文速递 ·

本研究利用基于分段的图像表示模型，探讨复杂性解释与预测，发现简单线性模型能够有效分析自然场景和艺术图像。研究揭示了特征学习中的偏倚现象，强调深度学习在理解大脑表示中的潜力，并提出改进模型评估的方法，以识别视觉特征导致的失败模式，提升对深层特征的理解和应用。

通过复杂性的视角理解视觉特征依赖

BriefGPT - AI 论文速递 ·

本文介绍了多种基于掩码自编码器（MAE）的创新方法，包括 MaskAlign、SdAE 和 LC-MAE。这些方法通过自监督学习和语义引导策略，显著提升了图像表示能力和分类性能，尤其在 ImageNet 数据集上表现突出。

增强掩模自编码器的伪标记

BriefGPT - AI 论文速递 ·

本文提出了一种改进的 Vision Mamba (ViM) 模型，通过优化扫描方向和动态方法，显著提升了图像表示效果。新型 Visual State Space Model (VMamba) 具有线性复杂度和全局感受野，适用于医学视频目标分割任务，展现出良好的速度和分割效果。此外，研究还探讨了基于状态空间模型的医学图像分割模型 VM-UNet，显示出竞争力，为未来高效分割系统奠定基础。