小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
进入全宇宙:通过合成数据和微调提高视觉AI代理准确性的三种工作流程

本文探讨了通过合成数据和微调提高视觉AI代理准确性的方法。随着边缘计算的发展,企业需要有效处理大量视频数据。NVIDIA提供的工具和蓝图帮助开发者生成训练数据、优化模型并快速部署视觉AI代理。通过合成缺陷图像和视频数据增强,企业能够在缺乏真实数据的情况下实现高效检测和操作。

进入全宇宙:通过合成数据和微调提高视觉AI代理准确性的三种工作流程

NVIDIA Blog
NVIDIA Blog · 2026-06-30T13:00:27Z
GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉

清华教授唐杰讨论了人工智能(AI)发展,强调通用人工智能(AGI)的重要性,并征集用户对GLM-5.3的需求。用户希望增加视觉能力以提升模型实用性。尽管智谱已有多模态模型,但GLM旗舰版尚未整合视觉功能,面临竞争压力。唐杰指出,虽然视觉能力重要,但提升模型智能仍需复杂推理。

GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉

量子位
量子位 · 2026-06-30T08:46:19Z
《星际狐狸》是Switch 2上最令人印象深刻的视觉展示

《星际狐狸》是任天堂Switch 2上的重制游戏,保留了经典N64射击玩法并进行了视觉升级。玩家控制狐狸麦克劳德,执行任务对抗邪恶科学家安德罗斯。游戏通过配音过场动画增强叙事,现代化的画面和更灵敏的控制提升了体验。尽管有些重复性,但视觉效果更具电影感。游戏将于6月25日发售。

《星际狐狸》是Switch 2上最令人印象深刻的视觉展示

The Verge
The Verge · 2026-06-24T12:00:00Z
AI以貌取人研究:六种模型暴露最致命视觉偏见

研究表明,AI在社会判断中存在严重的视觉偏见,尤其体现在穿衣风格、年龄和体型上。六种多模态模型对五百张假脸进行评估,发现AI比人类更容易以貌取人,尤其对穿着和体型的偏见更为明显。穿着风格对AI的判断影响最大,甚至超过种族和性别。这些偏见反映了人类社会的刻板印象,强调了外观在与AI互动中的重要性。

AI以貌取人研究:六种模型暴露最致命视觉偏见

极道
极道 · 2026-06-23T01:10:00Z
星载推理:一颗卫星正运行谷歌Gemma 3视觉语言模型

YAM-9卫星首次搭载谷歌Gemma 3视觉语言模型,实现星载推理,能够自主识别目标并处理数据,减轻地面分析负担,提高卫星工作效率,未来有望在太空部署更大规模的AI基础设施。

星载推理:一颗卫星正运行谷歌Gemma 3视觉语言模型

极道
极道 · 2026-06-21T02:08:00Z
全国视觉智能标准化工作组第1次会议暨AVS工作组第97次会议顺利召开

2026年6月11日至13日,全国视觉智能标准化工作组会议在乌鲁木齐召开,167名代表参与。会议决定将数字媒体内容描述组更名为时空图形编码组,并终止该组的活动。共收到97份提案,形成42份文档,讨论了AVS4视频编码需求和低时延编码等议题。音频组、VRU组和基因压缩组也审议了相关提案。下次会议计划于2026年8月在上海举行。

全国视觉智能标准化工作组第1次会议暨AVS工作组第97次会议顺利召开

实时互动网
实时互动网 · 2026-06-17T02:12:37Z
详解墨水屏对接LS26视觉语音开发板(Arcs-mini )

本文介绍了如何将LS26开发套件与墨水屏连接,包括硬件连接、驱动文件添加及编译过程。墨水屏具有护眼和低功耗的优点,适合AI语音交互应用。用户可通过修改代码和配置字模实现中文显示和图像处理。

详解墨水屏对接LS26视觉语音开发板(Arcs-mini )

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-06-15T08:36:53Z
Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

Zyphra发布了Zamba2-VL系列开放视觉语言模型,包含12亿、27亿和70亿参数。该模型采用混合SSM-Transformer架构,支持图像与文本的理解与关联,推理速度快,适用于文档提取和库存盘点等场景。尽管在知识推理方面表现不如大型模型,但在视觉计数和文档理解上具有优势。模型权重和推理代码已公开。

Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

实时互动网
实时互动网 · 2026-06-15T02:50:06Z
详解小聆AI语音视觉开发板实现语音点播本地TF卡中音乐的开发实现方法

本文介绍了如何使用LS26视觉语音开发板和TF卡实现本地音乐的语音点播。通过语音指令,设备可自动播放SD卡中的MP3文件,涵盖SD卡初始化、离线音乐播放服务配置及中文文件名支持等步骤。

详解小聆AI语音视觉开发板实现语音点播本地TF卡中音乐的开发实现方法

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-06-12T11:31:58Z
苹果将​​更新电视上的播客视觉观看体验

苹果公司计划在秋季更新tvOS系统,提升视频播客的观看体验,更新将包括全新设计、侧边栏导航和对播客封面的支持。同时,macOS也将新增画中画功能,方便用户进行多任务操作。

苹果将​​更新电视上的播客视觉观看体验

实时互动网
实时互动网 · 2026-06-12T02:33:01Z
使用快照捕捉视觉回归,现已进入测试阶段

Sentry 提供强大的产品分析功能,用户可以利用现有的追踪、日志和指标,无需额外工具。新升级的仪表板支持 AI 代理的创建和管理,并可通过 CLI 操作和克隆模板。此外,Unreal SDK 现已自动监测游戏性能数据,包括 FPS、帧时间和网络健康。

使用快照捕捉视觉回归,现已进入测试阶段

Sentry Blog
Sentry Blog · 2026-06-11T09:00:00Z
AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互

OpenClaw是一个开源AI智能体执行框架,支持多种模型和本地部署,确保数据安全。本文以LS26开发板为例,介绍如何接入OpenClaw,实现拍照识别和语音交互等功能,用户只需按照步骤配置,无需开发即可启用。

AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-06-10T08:55:02Z
Neurovia AI展示NeuroStream视觉数据底层基础设施平台

Neurovia AI在阿联酋网络安全峰会上展示了NeuroStream视觉数据基础设施平台,该平台实现了4K视频的高效压缩,存储空间减少96.37%,并保持视觉无损。通过AI压缩和边缘计算,降低了算力和能源消耗,促进了在安全防护和自动驾驶等领域的应用。

Neurovia AI展示NeuroStream视觉数据底层基础设施平台

全球TMT-美通国际
全球TMT-美通国际 · 2026-06-10T07:18:22Z
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点:统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

ABot-Claw是阿里巴巴高德团队基于OpenClaw提出的具身扩展,旨在解决多机器人协作中的长期任务执行问题。它集成了统一的具身接口、视觉中心的多模态记忆和基于评论者的闭环反馈机制,支持在动态环境中自我演化,实现复杂任务的持续学习和适应,标志着自主机器人系统的重要进步。

ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点:统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

结构之法 算法之道
结构之法 算法之道 · 2026-06-06T11:20:09Z
OpenCV与AMD宣布合作,加速AMD硬件上的计算机视觉和视觉AI工作负载

OpenCV与AMD宣布合作,旨在加速AMD硬件上的计算机视觉和视觉AI工作负载。AMD成为OpenCV 5的启动合作伙伴和金牌赞助商,双方将共同开发新架构,优化AI推理管道,提升图像处理性能,推动计算机视觉应用的开发与部署,适用于机器人、工业自动化和医疗成像等领域。

OpenCV与AMD宣布合作,加速AMD硬件上的计算机视觉和视觉AI工作负载

OpenCV
OpenCV · 2026-06-04T16:13:33Z
机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符

视频编码技术正向机器视觉优化发展,主要有三种方案:面向机器的视频编码(VCM)、面向机器的特征编码(FCM)和V-Nova的LCEVC。VCM优化像素处理以支持机器任务,FCM直接传输神经网络特征,LCEVC结合低分辨率基础层与高分辨率增强层,兼顾机器分析与人工视觉需求。

机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符

实时互动网
实时互动网 · 2026-06-04T06:17:44Z
LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

视启未来团队专注于开发隐空间世界模型,推动AI从“看见”向“预见”转变。创始人张磊指出,理解因果关系和物理规律至关重要。团队通过提升物体理解能力,推出全球领先的视觉大模型DINO-X,未来希望将世界模型作为物理世界AI的核心基础设施,助力机器人自主学习和决策。

LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

量子位
量子位 · 2026-06-04T03:43:37Z
NVIDIA通过代理技能推动物理AI研究的新纪元,支持自动驾驶、机器人和视觉AI

NVIDIA推出新一代物理AI代理技能,支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3,研究人员能够加速数据生成、模拟和政策训练,解决物理AI研究中的工作流程碎片化问题。这些技能提升了场景重建和合成场景生成的自动化,推动了相关系统的发展。

NVIDIA通过代理技能推动物理AI研究的新纪元,支持自动驾驶、机器人和视觉AI

NVIDIA Blog
NVIDIA Blog · 2026-06-03T15:00:35Z
τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

研究者提出了一种名为τ0-World Model(τ0-WM)的统一视频-动作世界模型,旨在提升机器人操作的预测能力。该模型结合视频预测、动作生成和任务评估,利用27,300小时的多样化数据进行训练。τ0-WM通过共享的预测网络,提供视频动作模型和动作条件视频模拟器两个接口,优化机器人在执行前的决策过程。

τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

结构之法 算法之道
结构之法 算法之道 · 2026-06-01T04:30:18Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码