小红花·文摘 - 小红花技术领袖俱乐部

解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法

解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法

MIT News - Artificial intelligence ·

你的logit值知道什么？（答案可能会让你惊讶！）

你的logit值知道什么？（答案可能会让你惊讶！）

Apple Machine Learning Research ·

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理，处理多图像输入并生成文本，利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经 ·

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

SafetyPairs：通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research ·

TrajTok：学习轨迹标记以提升视频理解

TrajTok：学习轨迹标记以提升视频理解

Apple Machine Learning Research ·

一种更好的复杂视觉任务规划方法

一种更好的复杂视觉任务规划方法

MIT News - Artificial intelligence ·

本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经 ·

微软与清华提出BiPS模型，通过训练阶段教会模型关注关键视觉细节，解决视觉-语言模型在推理中的错误。BiPS利用“拉”和“推”机制，提升视觉理解能力，使模型在复杂任务中更准确地识别信息，推动通用智能的发展。

AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

量子位 ·

$MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应$

MetaWorld——分层世界模型：融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验，及基于模型RL的对动态环境的在线自适应

结构之法算法之道 ·

“See_you“:“Next Moment“

“See_you“:“Next Moment“

百度大脑 ·

如何在自己的数据上对嵌入模型进行基准测试

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org ·

$GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术$

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术

结构之法算法之道 ·

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架，使用…

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架，使用…

云原生 ·

低门槛试用Open-AutoGLM：屏幕理解+自动执行的智能体体验；Spatial-SSRL-81k构建空间感知的自监督提升路径

低门槛试用Open-AutoGLM：屏幕理解+自动执行的智能体体验；Spatial-SSRL-81k构建空间感知的自监督提升路径

HyperAI超神经 ·

2.5亿美元的文件

2.5亿美元的文件

ByteByteGo Newsletter ·

BALROG - A benchmark suite for evaluating agentic large language models and …

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生 ·

Jina-VLM：小型多语言视觉语言模型

Jina-VLM：小型多语言视觉语言模型

Jina AI ·

百度出招！OCR模型PaddleOCR-VL打破管道与端到端方法局限；面部情感识别数据集Facial Emotion Recognition，赋能 AI 读懂表情

百度出招！OCR模型PaddleOCR-VL打破管道与端到端方法局限；面部情感识别数据集Facial Emotion Recognition，赋能 AI 读懂表情

HyperAI超神经 ·

使用Amazon Nova模型实现自动化视频高光剪辑

使用Amazon Nova模型实现自动化视频高光剪辑

亚马逊AWS官方博客 ·

VisionWeaver：从“现象识别”到“病因诊断”，开启AI视觉幻觉研究新篇章

VisionWeaver：从“现象识别”到“病因诊断”，开启AI视觉幻觉研究新篇章

实时互动网 ·