小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列,通过共享权重实现推理与动作的耦合,提升机器人控制效率。该模型采用可学习的动作分词器和视觉记忆模块,优化动作生成过程,减少离散化负担,能够在零样本条件下分解任务,直接生成动作,增强对复杂场景的适应能力。

Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

结构之法 算法之道
结构之法 算法之道 · 2026-06-04T10:18:09Z
语义层与上下文层:商业智能建模的终点与人工智能基础的起点

文章讨论了AI代理中的语义层和上下文层的重要性。语义层提供统一的业务指标定义,但无法满足代理在推理时对实时数据和上下文的需求。上下文层管理代理的信息访问,确保获取最新、相关的信息。Redis作为实时数据平台,结合向量搜索、语义缓存和代理记忆,提供高效的上下文基础设施,支持AI代理的运行。

语义层与上下文层:商业智能建模的终点与人工智能基础的起点

Redis Blog
Redis Blog · 2026-06-03T00:00:00Z
STARFlow-V:基于归一化流的端到端视频生成建模

STARFlow-V是一种基于归一化流的视频生成模型,具备端到端学习、稳健的因果预测和原生似然估计等优点。该模型在时空潜在空间中操作,采用全球-局部架构,减少因果依赖,提升视频生成的一致性。通过流评分匹配和视频感知的雅可比迭代方案,STARFlow-V提高了采样效率。实验结果显示,其在视觉保真度和时间一致性方面优于基于扩散的模型,展示了归一化流在高质量视频生成中的潜力。

STARFlow-V:基于归一化流的端到端视频生成建模

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-30T00:00:00Z
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。

ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

结构之法 算法之道
结构之法 算法之道 · 2026-04-28T16:09:26Z
如何在安全软件开发中应用STRIDE威胁建模和SonarQube分析

安全软件开发需要在设计和编码阶段进行保护。STRIDE威胁建模帮助识别设计中的风险,而SonarQube通过静态分析强制执行安全编码实践。将这两者结合,可以有效识别、预防和修复现代应用中的安全漏洞,从而在开发生命周期早期集成安全,提升应用安全性。

如何在安全软件开发中应用STRIDE威胁建模和SonarQube分析

freeCodeCamp.org
freeCodeCamp.org · 2026-04-28T13:53:03Z

本文探讨了金融系统中金额表示的复杂性,指出使用浮点数存储金额存在精度丢失的风险,建议使用Decimal或整数的最小单位以确保计算精确。同时讨论了不同货币的小数位数、汇率换算的精度控制及金额在数据库中的存储方式。强调在金融系统中,金额的表示、单位和汇率必须严格管理,以避免财务损失。

【金融科技工程】钱的建模:金额精度、币种、会计单位、多语言金额

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文介绍了论文《Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling》,提出了Plan-RewardBench基准,专注于智能代理的轨迹级奖励建模。研究指出现有奖励模型在长期依赖性、推理质量和规划能力评估方面的不足,强调了从结果导向转向过程导向的重要性,为AI安全评估提供了新的视角和方法。

一分钟读论文:《轨迹级奖励建模基准:Agent 对齐新挑战》

Micropaper
Micropaper · 2026-04-18T00:00:00Z

本文探讨了循环神经网络(RNN)在处理变长序列中的应用及其局限性。RNN通过权重共享和记忆机制处理序列数据,但存在长程依赖、梯度消失和训练并行性等问题。LSTM和GRU作为RNN的变体,通过门控机制改善了这些问题。尽管RNN在早期自然语言处理和机器翻译中发挥了重要作用,但随着Transformer的出现,其应用逐渐减少。

【Transformer 与注意力机制】09 RNN 与序列建模:Transformer 之前的世界

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

性能建模通过数学分析系统瓶颈,强调不能仅依赖直觉。电商平台在压力测试中发现延迟问题,最终通过排队论模型识别出瓶颈在于分布式锁。使用Little定律和M/M/1模型等工具,可以有效分析性能并优化系统设计。性能优化需关注平均值与分位数,确保系统在高负载下稳定运行。

【系统架构设计】性能建模:用数学思维分析系统瓶颈

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z

本文探讨了电商系统中的数据建模,分析了范式化与反范式化的决策,强调选择合适的存储模型(关系、文档、图)对性能和维护的重要性。通过案例展示不同存储引擎的优缺点,建议在设计时优先考虑关系模型,必要时再引入其他模型,并强调数据结构的清晰定义和版本管理是成功的关键。

【系统架构设计】数据建模:从关系范式到文档模型的真实权衡

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z

本文探讨了“及时”世界建模的研究,强调基于模拟的推理如何支持人类规划。提出了一种新颖的JIT框架,通过实时构建心理地图和选择性信息收集,实现高效决策。实验表明,JIT系统在处理环境时存储的信息量显著低于传统方法,但仍能做出高质量预测。未来研究应关注动态环境中的信息选择。

“及时”世界建模支持人类规划与推理

KDnuggets
KDnuggets · 2026-04-02T16:00:19Z
ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式

本文提出了一种新型超分辨率模型Ada-RefSR,旨在解决单步扩散模型中的幻觉问题。通过引入注意力机制和隐式相关性建模,显著提升了图像细节和质量。该方法在多个基准测试中表现优异,具备高效推理和鲁棒性,适合移动设备应用。

ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式

实时互动网
实时互动网 · 2026-03-19T02:30:10Z
利用Fivetran、Agentic AI和Databricks Genie 转变医疗转诊

数据统一后,团队需进行建模和报告准备。Fivetran提供强大工具,支持数据转化与激活,帮助医疗专业人员快速获取敏感数据,优化患者流程与转诊指标。通过自然语言与数据互动,医院能高效提取信息,提升医疗服务质量。

利用Fivetran、Agentic AI和Databricks Genie 转变医疗转诊

Databricks
Databricks · 2026-03-09T09:00:00Z
AI for Mathematics:当人工智能邂逅纯数学——2026年的突破性进展

北京大学的论文《AI for Mathematics》探讨了人工智能在数学研究中的进展与挑战,主要分为问题特定建模和通用建模两大方向。AI已成为数学家的重要合作伙伴,帮助发现新关系、构造反例和掌握形式化推理,开启了数学研究的新黄金时代。

AI for Mathematics:当人工智能邂逅纯数学——2026年的突破性进展

Micropaper
Micropaper · 2026-03-01T14:00:00Z
GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力

GigaBrain-0是一种新型视觉-语言-动作(VLA)模型,旨在通过整合视觉输入、自然语言指令和运动控制,提升机器人在多样环境中的操作能力。该模型利用生成的数据,降低对真实世界数据的依赖,提高泛化能力和数据效率。GigaBrain-0采用混合架构,增强空间感知能力,并通过生成中间推理步骤,模拟人类问题解决过程,实现更精确的操作和决策。

GigaBrain-0——通过世界模型GigaWorld增强VLA的泛化能力:基于RGBD输入建模,及通过具身CoT增强推理能力

结构之法 算法之道
结构之法 算法之道 · 2026-02-14T12:16:31Z
动态关系建模:阴阳平衡下的五行流动

动态关系建模探讨阴阳与五行的平衡,分析元素间的内在张力及其演变。通过四层模型研究GPU调度问题,提出优化资源和恢复平衡的方案,强调系统的长期协调发展。

动态关系建模:阴阳平衡下的五行流动

云原生
云原生 · 2026-02-10T13:55:47Z
受DeepSeek Engram启发,基因组基础模型「外挂大脑」Gengram最高实现22.6%性能提升

基因组基础模型Gengram通过k-mer哈希记忆机制显著提升基因组功能任务的性能,避免了传统模型的低效率,直接存储碱基序列,优化训练过程,提高预测准确性,推动基因组建模向更高效、可解释的方向发展。

受DeepSeek Engram启发,基因组基础模型「外挂大脑」Gengram最高实现22.6%性能提升

HyperAI超神经
HyperAI超神经 · 2026-02-06T06:45:17Z

英伟达的Jim Fan认为,世界建模将成为新的预训练范式,预计在2026年对机器人和多模态AI领域产生重要影响。通过预测合理的世界状态,世界建模推动物理AI的发展,强调视觉推理的重要性,可能会改变机器人技术的基础。

英伟达Jim Fan:「世界建模」是新一代预训练范式

量子位
量子位 · 2026-02-05T15:23:12Z
HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略:基于人工势场APF和混合场景建模的全身RL算法

本文介绍了HumanoidPF(类人潜力场),一种用于人形机器人在杂乱室内场景中无碰撞穿越的技术。该方法通过编码人形体与障碍物的关系,提升机器人在复杂环境中的避障能力。研究者提出了一种混合场景生成策略,结合真实和程序化障碍物,增强训练效果。HumanoidPF被应用于Click-and-Traverse系统,实现高效遥操作导航,实验结果显示其在拥挤场景中表现优异,具有良好的泛化能力。

HumanoidPF——让双足人形无碰撞穿越舱门的视觉-运动策略:基于人工势场APF和混合场景建模的全身RL算法

结构之法 算法之道
结构之法 算法之道 · 2026-02-01T15:30:55Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码