小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
医疗 AI:小公司的机会可能比你想的大

OpenEvidence 日均进行 100 万次临床咨询,覆盖超过 1 万家医院,40% 的美国医生在使用。医疗 AI 市场快速增长,预计中国市场将从 88 亿增长至 3157 亿人民币。小模型在医疗领域可能更具优势,强调场景理解和流程设计的重要性。

医疗 AI:小公司的机会可能比你想的大

凡人小北 · 转角处
凡人小北 · 转角处 · 2026-03-22T00:00:00Z
医疗 AI:小公司的机会可能比你想的大

OpenEvidence 日均进行 100 万次临床咨询,覆盖超过 1 万家医院,40% 的美国医生在使用。医疗 AI 市场快速增长,预计中国市场将从 88 亿人民币增至 3157 亿人民币。小模型在医疗领域可能更具优势,强调场景理解和流程设计的重要性。

医疗 AI:小公司的机会可能比你想的大

凡人小北 · 转角处
凡人小北 · 转角处 · 2026-03-22T00:00:00Z
中之杰智能OAG本体模型,助力智能体在离散制造中精准行动

中之杰智能推出OAG本体模型,旨在通过构建“工业常识”体系,数字化生产要素,明确其属性和关联逻辑,从而提升智能体的场景理解力,实现从被动问答到主动治理的转变。

中之杰智能OAG本体模型,助力智能体在离散制造中精准行动

全球TMT-美通国际
全球TMT-美通国际 · 2026-02-02T15:18:10Z

本研究探讨了视觉语言模型在理解虚拟物体方面的不足,测试了AI系统的场景理解能力,发现其在处理虚拟对象时表现不佳,揭示了多模态输入处理的局限性。

Challenges of Visual Language Models in Recognizing Virtual Objects

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本文探讨了图神经网络(GNN)与定性可解释图(QXG)在自动驾驶场景理解中的结合,提出了一种新颖的GNN架构,能够有效识别交通场景中的相关对象,实验结果表明其在对象识别任务中表现优异。

基于定性表示和图神经网络的可解释场景理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了PRIMEDrive-CoT框架,旨在解决自驾模型在不确定性场景中的不足。该框架结合激光雷达与多视角RGB信息,通过贝叶斯图神经网络实现目标交互的概率推理,提升了场景理解的可解释性与可靠性。研究结果表明,PRIMEDrive-CoT在DriveCoT数据集上优于现有模型,展示了在复杂环境中处理不确定性的潜力。

PRIMEDrive-CoT: A Precognitive Chain-of-Thought Framework for Uncertainty-Aware Object Interaction in Driving Scenarios

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了一种名为Ross3D的重构视觉指令调优方法,旨在解决大规模三维视觉-语言数据集的缺乏问题。该方法通过三维视觉监督,提升了三维场景理解的性能,并展示了未标记三维数据的潜力。

Ross3D: Reconstructive Visual Instruction Tuning with 3D Awareness

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出CoT-Drive,通过大型语言模型和链式思维提示,提升自动驾驶中的运动预测准确性。采用知识蒸馏策略,将场景理解能力转移至轻量级模型,实现实时操作,显著增强复杂交通环境中的预测准确性和鲁棒性。

CoT-Drive: 利用大型语言模型和链式思维提示进行高效的自动驾驶运动预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律

香港大学与Adobe联合提出的UniReal图像编辑与生成方法,将多种图像任务整合到视频生成框架中,通过学习真实视频数据实现高保真效果。UniReal支持图像定制生成、指令编辑和物体插入,展现出强大的生成能力和场景理解能力。未来将探索更高效的结构以提升处理速度和效率。

UniReal登场:用视频架构统一图像生成与编辑,还学到真实世界动态变化规律

机器之心
机器之心 · 2024-12-20T05:28:47Z
LeCun团队新作:在世界模型中导航

LeCun团队的导航世界模型NWM能够在已知和未知环境中生成视频,具备出色的导航能力。尽管在单图生成视频方面略逊于DeepMind的Genie-2,但在场景理解和路径规划上表现优异。NWM通过条件扩散Transformer实现高效导航,展现了先进的视觉导航性能。

LeCun团队新作:在世界模型中导航

机器之心
机器之心 · 2024-12-07T09:04:07Z

本文总结了低成本稳定的2.5/3D视觉感知器件在室内环境视觉场景理解中的应用,探讨了数据表示、核心技术和性能评价。研究提出了基于场景图的三维语义理解、语义视图综合和视觉转换器等多种方法,以提高场景理解的准确性和多样性,并分析了不同视觉编码模型的优缺点,强调了未来选择编码器的灵活性。

向虚拟场景表征的过渡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文介绍了一系列基于深度学习的视觉推理和场景理解方法,包括强化学习、类比推理和对象中心生成模型。尽管现有模型在特定任务上表现良好,但在抽象视觉推理和复杂场景中仍面临挑战。新提出的可解释性方法FovEx在模型重要区域定位上表现优越,具有实际应用潜力。

注意间隙:基于瞥见的主动感知改善视觉推理的泛化能力和样本效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文介绍了多种基于图结构和神经网络的机器人场景理解方法,如图卷积网络、神经隐式场和空间本体构建。这些方法在室内外环境中有效提升了语义推断、目标导航和房间布局估计的精度,并展示了在稀疏数据下生成高质量3D场景图的潜力。

基于图神经网络的度量语义因子图生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

本文探讨了自动驾驶中3D场景演变的重要性,提出了多种模型(如OccWorld、DriveVLM、3D-VLA)以提升场景理解和决策能力。这些模型在复杂驾驶条件下表现优异,强调了改进基础模型以适应真实动态环境的必要性。此外,CoVLA数据集为多模态大语言模型提供了支持,推动了自动驾驶技术的发展。

OccLLaMA:一种用于自动驾驶的占用语言行动生成世界模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

该研究综述了视觉语言模型(VLM)在自动驾驶和智能交通系统中的应用,评估了其在场景理解和因果推理方面的表现,并指出了方向辨别和交通信号识别等挑战。研究提出了DriveVLM和DriveDreamer-2等新系统,展示了生成视频和数据集在提升自动驾驶性能中的潜力,并强调了改进模型以适应真实动态环境的必要性。

DriveGenVLM:基于视觉语言模型的真实世界视频生成用于自主驾驶

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

该文章介绍了一个新的任务,用于评估代理人的场景理解能力。任务要求代理人在三维场景中通过推理回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集,并评估了各种方法的性能。结果显示,最佳方法的总体得分为47.20%,而业余人类参与者的得分为90.06%。作者认为该任务可以促进未来AI研究中更强的情境理解和推理能力。

关于日常环境中动态时空推理的多模态数据集与基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文研究了具有挑战性的物理结构任务和深度强化学习代理的处理方式。结果显示,使用结构化表示和策略的代理表现更好且具有推广性。结构化表示和推理与强大的学习相结合是实现直观物理、场景理解和规划代理的关键路径。

基于深度强化学习的物理感知组合装配规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

该研究介绍了一个新任务,用于评估代理人的场景理解能力。任务要求代理人在三维场景中理解情境并回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集,并评估了代理人的推理能力。最佳方法得分为47.20%,而业余人类参与者得分为90.06%。研究者认为该任务有助于推动未来AI研究中情境理解和推理能力更强的体系结构的发展。

城市场景理解的 3D 问答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

DriveVLM是一种利用VLMs进行自动驾驶的系统,通过思维链模块实现场景理解和规划。DriveVLM-Dual是混合系统,解决了VLMs的限制。实验证明了DriveVLM和DriveVLM-Dual在复杂和不可预测的驾驶条件下的有效性和增强性能。

VisionTrap: 基于视觉增强和文本描述的轨迹预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

该研究介绍了一个新任务,用于评估代理人的场景理解能力。任务要求代理人在三维场景中理解情境并回答问题。研究建立了一个包含6.8k个情境和33.4k个问题的数据集,并评估了代理人的推理能力。结果显示最佳方法得分为47.20%,而业余人类参与者得分为90.06%。研究者认为该任务有助于未来AI研究中发展更强的情境理解和推理能力体系结构。

基于大型语言模型的三维情境推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码