小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

WRING是一种新型去偏见技术,通过调整模型中特定坐标的表示方式,减少目标概念的偏见,同时不增加其他领域的偏见。该方法高效且无需重新训练模型,适用于视觉语言模型(VLM),如CLIP模型。研究表明,WRING在减少偏见方面效果显著。

解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-29T21:40:00Z
你的logit值知道什么?(答案可能会让你惊讶!)

本文探讨了模型内部信息的探测及其潜在的信息泄露风险。通过对视觉语言模型的研究,比较了不同表示层级的信息保留情况,发现顶级logit值可能泄露与任务无关的信息。此外,文章讨论了静态残差变换在自回归生成中的效率与生成质量之间的权衡。

你的logit值知道什么?(答案可能会让你惊讶!)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-20T00:00:00Z

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:44:00Z
SafetyPairs:通过反事实图像生成隔离安全关键图像特征

本文介绍了SafetyPairs框架,生成仅在安全特征上不同的图像对,以区分安全与不安全的图像。通过图像编辑模型进行针对性修改,构建了一个包含3020个图像的安全基准,提升了视觉语言模型的评估能力,并改善了轻量级模型的训练效率。

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-24T00:00:00Z

本文介绍了如何使用vLLM进行离线推理,特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置,以确保在不同GPU上有效运行。

【vLLM 学习】Vision Language

HyperAI超神经
HyperAI超神经 · 2026-03-09T02:10:53Z
“See_you“:“Next Moment“

未来,PaddleFormers将降低多模态模型的训练门槛,帮助开发者构建实际业务能力,推动多模态模型在更多场景中的应用。随着能力的提升,视觉语言模型将更好地理解和定位世界,PaddleFormers提供高效的训练工具,便于模型的微调与扩展。

“See_you“:“Next Moment“

百度大脑
百度大脑 · 2026-01-23T11:50:49Z
如何在自己的数据上对嵌入模型进行基准测试

选择合适的嵌入模型并不简单,但可以通过定制基准测试来改善。新课程教你如何利用视觉语言模型和大型语言模型进行文本提取和评估,克服Python库的局限性,生成评估问题,创建数据向量表示,并使用ranx库进行基准测试和可视化。

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org
freeCodeCamp.org · 2026-01-15T15:49:38Z
GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型:基于渐进式动作生成PAG技术

结构之法 算法之道
结构之法 算法之道 · 2026-01-06T15:36:00Z
Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架,使用…

Midscene.js是一个跨平台的UI自动化框架,利用视觉语言模型进行视觉定位和交互。它支持自然语言描述自动化目标,提供JavaScript SDK和YAML脚本,适用于Web、Android和iOS,适合端到端UI测试和操作任务自动化,降低维护成本。

Midscene.js - 一个基于视觉语言模型的跨平台UI自动化框架,使用…

云原生
云原生 · 2025-12-26T10:34:26Z
低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径

智谱AI推出手机端智能助理框架Open-AutoGLM,利用视觉语言模型实现屏幕内容的深度理解与自动化操作。用户可通过自然语言指令完成任务,系统确保安全性并支持远程调试,已覆盖50余款主流应用,逐步成为全场景智能助手。

低门槛试用Open-AutoGLM:屏幕理解+自动执行的智能体体验;Spatial-SSRL-81k构建空间感知的自监督提升路径

HyperAI超神经
HyperAI超神经 · 2025-12-15T07:10:51Z
2.5亿美元的文件

Coinbase、MSCI和Zscaler等公司的工程团队利用Resolve AI的AI SRE工具,使平均修复时间(MTTR)提高了5倍,开发效率提升了75%。Molmo是一种新型视觉语言模型,基于PixMo数据集,解决了现有模型的依赖问题,增强了视觉理解和推理能力。

2.5亿美元的文件

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-10T16:30:49Z
BALROG - A benchmark suite for evaluating agentic large language models and …

BALROG是一个开源基准套件,用于评估大语言模型(LLM)和视觉语言模型(VLM)在游戏任务中的推理与决策能力。它通过设计游戏任务和评测指标,帮助研究者比较不同模型的表现,支持模型选择与微调。该套件基于Python实现,采用模块化架构,关注决策过程的可测量性,并支持跨模态推理能力的评估。

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生
云原生 · 2025-12-08T13:29:00Z
Jina-VLM:小型多语言视觉语言模型

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

Jina-VLM:小型多语言视觉语言模型

Jina AI
Jina AI · 2025-12-04T18:57:53Z
百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

百度推出PaddleOCR-VL模型,结合视觉语言模型,支持109种语言,能够高效识别文本和表格等元素,资源消耗低,适合实际应用。

百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

HyperAI超神经
HyperAI超神经 · 2025-11-25T06:07:47Z
VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章

VisionWeaver及其诊断工具VHBench-10有效解决了大型视觉语言模型中的“幻觉”问题。通过动态协作多个视觉专家,系统性诊断视觉能力短板,显著降低幻觉率,提升模型表现,为多模态AI的可靠性提供新路径。

VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章

实时互动网
实时互动网 · 2025-11-14T06:12:59Z
AI应用:将自主AI引入计算机视觉应用的三种方法

本文探讨了将视觉语言模型(VLM)应用于视频分析,以提升计算机视觉系统的智能化。VLM通过密集标注、增强警报和AI推理,提供丰富的上下文信息,提升视频搜索和分析效率,帮助企业做出更准确的决策和控制成本。

AI应用:将自主AI引入计算机视觉应用的三种方法

NVIDIA Blog
NVIDIA Blog · 2025-11-13T18:50:06Z
功能齐全的下载管理器:界面美观、下载神速 | 开源日报 No.787

solid_queue 是高性能数据库后端,支持多种作业排队和处理,兼容多种 SQL 数据库。awesome-llm-interpretability 提供 LLM 可解释性资源,包括工具和论文。Vary 扩展视觉语言模型,支持多语言文档处理。Motrix 是全面的下载管理器,支持多种下载协议。docker-easyconnect 使 VPN 软件在 Docker 中运行。

功能齐全的下载管理器:界面美观、下载神速 | 开源日报 No.787

开源服务指南
开源服务指南 · 2025-11-12T07:35:14Z
DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

DeepSeek-OCR是一种新型视觉语言模型,利用视觉模态高效压缩文本信息。其架构包括DeepEncoder和解码器,支持多种分辨率,在高压缩比下保持高OCR精度。模型训练使用多样化数据集,提升了文本识别能力。

DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

结构之法 算法之道
结构之法 算法之道 · 2025-11-11T15:39:37Z
在Databricks上使用视觉语言模型以成本效益高的方式对医学影像进行去标识化

医学影像(如X光和MRI)不仅用于诊断和治疗,还可用于医学研究和公共卫生政策。为保护患者隐私,需对医疗记录进行去标识化。我们提出了Pixels解决方案,结合视觉语言模型(VLM)和EasyOCR技术,加速DICOM格式医学影像的去标识化,提高了效率和准确性。测试显示,VLM在PHI检测中表现优异,与EasyOCR结合使用可有效减少误判。该工具已成功应用于大规模影像数据处理。

在Databricks上使用视觉语言模型以成本效益高的方式对医学影像进行去标识化

Databricks
Databricks · 2025-11-04T21:30:00Z
ICCV 2025:浪潮信息AI团队SimpleVSF框架让自动驾驶模型“会思考”

在ICCV 2025自动驾驶国际挑战赛中,浪潮信息AI团队凭借“SimpleVSF”框架,以53.06的EPDMS得分获得端到端自动驾驶赛道冠军。该框架有效结合轨迹规划与视觉语言模型,提升了自动驾驶的决策能力和场景理解,解决了复杂交通语义认知的问题。

ICCV 2025:浪潮信息AI团队SimpleVSF框架让自动驾驶模型“会思考”

全球TMT-美通国际
全球TMT-美通国际 · 2025-10-29T01:42:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码