小红花·文摘

Anthropic发布首个神话级模型Claude Fable

The Verge ·

一种更好的复杂视觉任务规划方法

MIT News - Artificial intelligence ·

本研究提出了一种二维语义感知位置编码（$ ext{SaPE}^2$），有效解决了现有位置编码无法捕捉图像补丁间语义关系的问题，从而显著提升了模型的泛化能力和视觉任务性能。

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

BriefGPT - AI 论文速递 ·

Meta AI 推出感知编码器：一款大规模视觉编码器，在图像和视频的多项视觉任务中表现出色

实时互动网 ·

OpenAI最新发布的o3和o4-mini模型在推理和编程能力上表现优异。o3能够解决复杂问题，而o4-mini在视觉任务中更强大。两者均能处理图像并进行深度思考，但o3有时会错误声称执行代码。这些模型展示了强大的人工智能潜力。

实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模型名副其实！

量子位 ·

本研究提出了A4Net，一个深度表现网络，通过亮度、色彩丰富度、场景理解和面部表情四个属性，弥合传统视觉任务与情感分析之间的差距。实验结果表明，A4Net在视觉情感数据集上表现优异。

Attribute-Aware Visual Emotion Representation Learning

BriefGPT - AI 论文速递 ·

本研究探讨了深度神经网络在局部损坏下的空间鲁棒性，提出了评估框架和多种攻击对抗分析方法，揭示了不同模型对损坏的反应差异，为提升视觉任务的可靠性提供了新见解。

通过自然和对抗性局部损坏对深度神经网络空间鲁棒性进行基准测试

BriefGPT - AI 论文速递 ·

本研究提出了TULIP模型，旨在改善现有图像-文本对比模型在视觉任务中的不足。通过数据增强和对比学习，TULIP能够更有效地学习细粒度视觉特征，并保持全局语义一致性。实验结果显示，TULIP在多个基准测试中超越了现有模型，尤其在零-shot任务和少量样本分类上表现显著提升。

Unified Language-Image Pretraining: TULIP

BriefGPT - AI 论文速递 ·

该研究提出了对称视觉对比优化（S-VCO），旨在解决大型视觉-语言模型在视觉任务中忽视图像内容的问题。实验结果表明，该方法显著提升了模型在多项基准测试中的表现，尤其在视觉依赖性较高的任务中，幻觉现象减少了22%。

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

BriefGPT - AI 论文速递 ·

本研究提出“可移植的奖励调优”（PRT）原则，以解决基础模型因知识过时而需频繁微调的问题。实验结果表明，基于PRT的模型在视觉和语言任务上具有与现有方法相当的准确性，同时降低了推理成本。

Portable Reward Tuning: Achieving Reusable Fine-tuning Across Different Pre-trained Models

BriefGPT - AI 论文速递 ·

本研究分析了脉冲神经网络与视觉变换器的性能差距，提出了眼动脉冲自注意力机制，显著提升了SNN-ViT在视觉任务中的表现。

Pulse Visual Transformer with Eye Movement Attention Mechanism

BriefGPT - AI 论文速递 ·

ICLR 2025 | 极性感知线性注意力！哈工深张正团队提出PolaFormer视觉基础模型

机器之心 ·

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

机器之心 ·

新型嵌套变换器使人工智能推理速度提高2倍而不损失准确性

DEV Community ·

AI 人像生成的新工具：风格多样，速度飞快 | 开源日报 No.434

开源服务指南 ·

人工智能周报 #296 - 新Gemini模型登顶排行榜，xAI获得融资，Pixtral大型模型

Last Week in AI ·

本研究提出了一种创新的秩增强视觉线性变换器（RAVLT），通过改进线性注意力机制，在多个视觉任务中表现优异，尤其在ImageNet-1k上达到了84.4%的准确率。

打破线性注意力的低秩困境

BriefGPT - AI 论文速递 ·

本文探讨了transformers中的注意机制在视觉和语言任务中的应用，提出了稀疏注意力、混合专家架构和离散多模态语言模型等方法，以提高模型的可解释性和计算效率，推动多模态大型语言模型的发展。

混合变换器：一种稀疏且可扩展的多模态基础模型架构

BriefGPT - AI 论文速递 ·

卡内基梅隆大学提出了一种新型黑盒优化策略，利用大语言模型自动调整视觉语言模型的提示词，无需访问模型参数。这种方法提高了优化的灵活性和速度，适用于多种视觉任务，并在多个数据集上超越传统方法。研究表明，该策略能够有效捕捉视觉特性，生成高质量图像，具有广泛的应用潜力。

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

量子位 ·

本文提出了一种基于预训练的迁移学习框架，通过共享超网络微调语言模型，支持语言和视觉任务。研究探讨了超参数优化对模型性能的影响，提出了CARBS算法和LOMO优化器，以降低内存使用并提高效率。此外，QFT框架实现了内存高效调优，将模型状态内存减少至21%。研究还关注大型模型的细调内存开销，提出高效激活函数和Memory-Sharing Backpropagation策略，降低内存使用30%。

通过记忆化意识降低机器学习、视觉和语言模型训练流程中的超参数调优成本

BriefGPT - AI 论文速递 ·