小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《星际狐狸》是Switch 2上最令人印象深刻的视觉展示

《星际狐狸》是任天堂Switch 2上的重制游戏,保留了经典N64射击玩法并进行了视觉升级。玩家控制狐狸麦克劳德,执行任务对抗邪恶科学家安德罗斯。游戏通过配音过场动画增强叙事,现代化的画面和更灵敏的控制提升了体验。尽管有些重复性,但视觉效果更具电影感。游戏将于6月25日发售。

《星际狐狸》是Switch 2上最令人印象深刻的视觉展示

The Verge
The Verge · 2026-06-24T12:00:00Z
AI以貌取人研究:六种模型暴露最致命视觉偏见

研究表明,AI在社会判断中存在严重的视觉偏见,尤其体现在穿衣风格、年龄和体型上。六种多模态模型对五百张假脸进行评估,发现AI比人类更容易以貌取人,尤其对穿着和体型的偏见更为明显。穿着风格对AI的判断影响最大,甚至超过种族和性别。这些偏见反映了人类社会的刻板印象,强调了外观在与AI互动中的重要性。

AI以貌取人研究:六种模型暴露最致命视觉偏见

极道
极道 · 2026-06-23T01:10:00Z
星载推理:一颗卫星正运行谷歌Gemma 3视觉语言模型

YAM-9卫星首次搭载谷歌Gemma 3视觉语言模型,实现星载推理,能够自主识别目标并处理数据,减轻地面分析负担,提高卫星工作效率,未来有望在太空部署更大规模的AI基础设施。

星载推理:一颗卫星正运行谷歌Gemma 3视觉语言模型

极道
极道 · 2026-06-21T02:08:00Z
全国视觉智能标准化工作组第1次会议暨AVS工作组第97次会议顺利召开

2026年6月11日至13日,全国视觉智能标准化工作组会议在乌鲁木齐召开,167名代表参与。会议决定将数字媒体内容描述组更名为时空图形编码组,并终止该组的活动。共收到97份提案,形成42份文档,讨论了AVS4视频编码需求和低时延编码等议题。音频组、VRU组和基因压缩组也审议了相关提案。下次会议计划于2026年8月在上海举行。

全国视觉智能标准化工作组第1次会议暨AVS工作组第97次会议顺利召开

实时互动网
实时互动网 · 2026-06-17T02:12:37Z
详解墨水屏对接LS26视觉语音开发板(Arcs-mini )

本文介绍了如何将LS26开发套件与墨水屏连接,包括硬件连接、驱动文件添加及编译过程。墨水屏具有护眼和低功耗的优点,适合AI语音交互应用。用户可通过修改代码和配置字模实现中文显示和图像处理。

详解墨水屏对接LS26视觉语音开发板(Arcs-mini )

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-06-15T08:36:53Z
Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

Zyphra发布了Zamba2-VL系列开放视觉语言模型,包含12亿、27亿和70亿参数。该模型采用混合SSM-Transformer架构,支持图像与文本的理解与关联,推理速度快,适用于文档提取和库存盘点等场景。尽管在知识推理方面表现不如大型模型,但在视觉计数和文档理解上具有优势。模型权重和推理代码已公开。

Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型

实时互动网
实时互动网 · 2026-06-15T02:50:06Z
详解小聆AI语音视觉开发板实现语音点播本地TF卡中音乐的开发实现方法

本文介绍了如何使用LS26视觉语音开发板和TF卡实现本地音乐的语音点播。通过语音指令,设备可自动播放SD卡中的MP3文件,涵盖SD卡初始化、离线音乐播放服务配置及中文文件名支持等步骤。

详解小聆AI语音视觉开发板实现语音点播本地TF卡中音乐的开发实现方法

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-06-12T11:31:58Z
苹果将​​更新电视上的播客视觉观看体验

苹果公司计划在秋季更新tvOS系统,提升视频播客的观看体验,更新将包括全新设计、侧边栏导航和对播客封面的支持。同时,macOS也将新增画中画功能,方便用户进行多任务操作。

苹果将​​更新电视上的播客视觉观看体验

实时互动网
实时互动网 · 2026-06-12T02:33:01Z
使用快照捕捉视觉回归,现已进入测试阶段

Sentry 提供强大的产品分析功能,用户可以利用现有的追踪、日志和指标,无需额外工具。新升级的仪表板支持 AI 代理的创建和管理,并可通过 CLI 操作和克隆模板。此外,Unreal SDK 现已自动监测游戏性能数据,包括 FPS、帧时间和网络健康。

使用快照捕捉视觉回归,现已进入测试阶段

Sentry Blog
Sentry Blog · 2026-06-11T09:00:00Z
AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互

OpenClaw是一个开源AI智能体执行框架,支持多种模型和本地部署,确保数据安全。本文以LS26开发板为例,介绍如何接入OpenClaw,实现拍照识别和语音交互等功能,用户只需按照步骤配置,无需开发即可启用。

AI语音视觉开发板对接 OpenClaw 龙虾实现多模态交互

分享AI芯片开发经验
分享AI芯片开发经验 · 2026-06-10T08:55:02Z
Neurovia AI展示NeuroStream视觉数据底层基础设施平台

Neurovia AI在阿联酋网络安全峰会上展示了NeuroStream视觉数据基础设施平台,该平台实现了4K视频的高效压缩,存储空间减少96.37%,并保持视觉无损。通过AI压缩和边缘计算,降低了算力和能源消耗,促进了在安全防护和自动驾驶等领域的应用。

Neurovia AI展示NeuroStream视觉数据底层基础设施平台

全球TMT-美通国际
全球TMT-美通国际 · 2026-06-10T07:18:22Z
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点:统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

ABot-Claw是阿里巴巴高德团队基于OpenClaw提出的具身扩展,旨在解决多机器人协作中的长期任务执行问题。它集成了统一的具身接口、视觉中心的多模态记忆和基于评论者的闭环反馈机制,支持在动态环境中自我演化,实现复杂任务的持续学习和适应,标志着自主机器人系统的重要进步。

ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点:统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

结构之法 算法之道
结构之法 算法之道 · 2026-06-06T11:20:09Z
OpenCV与AMD宣布合作,加速AMD硬件上的计算机视觉和视觉AI工作负载

OpenCV与AMD宣布合作,旨在加速AMD硬件上的计算机视觉和视觉AI工作负载。AMD成为OpenCV 5的启动合作伙伴和金牌赞助商,双方将共同开发新架构,优化AI推理管道,提升图像处理性能,推动计算机视觉应用的开发与部署,适用于机器人、工业自动化和医疗成像等领域。

OpenCV与AMD宣布合作,加速AMD硬件上的计算机视觉和视觉AI工作负载

OpenCV
OpenCV · 2026-06-04T16:13:33Z
机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符

视频编码技术正向机器视觉优化发展,主要有三种方案:面向机器的视频编码(VCM)、面向机器的特征编码(FCM)和V-Nova的LCEVC。VCM优化像素处理以支持机器任务,FCM直接传输神经网络特征,LCEVC结合低分辨率基础层与高分辨率增强层,兼顾机器分析与人工视觉需求。

机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符

实时互动网
实时互动网 · 2026-06-04T06:17:44Z
LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

视启未来团队专注于开发隐空间世界模型,推动AI从“看见”向“预见”转变。创始人张磊指出,理解因果关系和物理规律至关重要。团队通过提升物体理解能力,推出全球领先的视觉大模型DINO-X,未来希望将世界模型作为物理世界AI的核心基础设施,助力机器人自主学习和决策。

LeCun 10亿押注的方向,全球领先视觉大模型团队早已布局

量子位
量子位 · 2026-06-04T03:43:37Z
NVIDIA通过代理技能推动物理AI研究的新纪元,支持自动驾驶、机器人和视觉AI

NVIDIA推出新一代物理AI代理技能,支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3,研究人员能够加速数据生成、模拟和政策训练,解决物理AI研究中的工作流程碎片化问题。这些技能提升了场景重建和合成场景生成的自动化,推动了相关系统的发展。

NVIDIA通过代理技能推动物理AI研究的新纪元,支持自动驾驶、机器人和视觉AI

NVIDIA Blog
NVIDIA Blog · 2026-06-03T15:00:35Z
τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

研究者提出了一种名为τ0-World Model(τ0-WM)的统一视频-动作世界模型,旨在提升机器人操作的预测能力。该模型结合视频预测、动作生成和任务评估,利用27,300小时的多样化数据进行训练。τ0-WM通过共享的预测网络,提供视频动作模型和动作条件视频模拟器两个接口,优化机器人在执行前的决策过程。

τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

结构之法 算法之道
结构之法 算法之道 · 2026-06-01T04:30:18Z

开放媒体联盟发布了AV2编解码器的首个版本,旨在提高视频压缩效率和视觉质量。AV2是开源免版税的,支持流媒体和AR/VR应用。目前,VLC播放器已开始适配AV2,但编码速度和细节保留仍需优化。

开放媒体联盟发布AV2编解码器的首个版本 继续提高压缩效率并改进视觉质量范围

蓝点网
蓝点网 · 2026-06-01T03:00:59Z
一款应用于工业物联网项目上基础视觉识别服务,使用 .net Core 与 Yolo 识别服务开发的 WebApi 服务 ,开箱即用

VisualIdentity是一款开源免费的视觉识别API服务,旨在帮助开发者解决模型管理和多任务识别的问题。它具备现代化能力和高性能推理,支持多模型管理、单机多任务识别及跨平台部署,适用于工业质检、零售分析和智能安防等场景。

一款应用于工业物联网项目上基础视觉识别服务,使用 .net Core 与 Yolo 识别服务开发的 WebApi 服务 ,开箱即用

dotNET跨平台
dotNET跨平台 · 2026-05-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码