小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

云知声推出Unisound U1-OCR,标志着OCR 3.0时代的到来。该模型具备高效的文档理解能力,超越传统OCR,实现从“识别文字”到“理解文档”的转变,适应复杂场景,提高文档处理效率。

云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代

量子位
量子位 · 2026-02-26T08:16:16Z
辅助驾驶,如何从「猴子」进化到「人类」

理想汽车的自动驾驶技术从“端到端+ VLM视觉语言模型”演变为“VLA视觉语言动作模型”,后者具备更强的思考、沟通和学习能力,能更好地处理复杂场景。通过大量数据和仿真测试,理想汽车旨在提升安全性和驾驶舒适度,实现更高效的自动驾驶体验。

辅助驾驶,如何从「猴子」进化到「人类」

TechWeb 全站精华
TechWeb 全站精华 · 2025-08-02T03:20:49Z

PP-OCRv5是百度开源的OCR系统,支持80多种语言,优化了小文本识别,适合移动和服务器端部署。开发者可通过OpenVINO.CSharp.API.Extensions.PaddleOCR NuGet包在Intel CPU平台上快速部署PP-OCRv5模型,提升识别精度,尤其在复杂场景中表现优异。

使用OpenVINO™.CSharp.API在C#平台快速部署PP-OCRv5模型识别多场景文本

dotNET跨平台
dotNET跨平台 · 2025-06-15T23:57:58Z

本文首次提出了一种普遍的注意逻辑,解决了现有动态认知逻辑在复杂注意场景中的局限性。通过引入边缘条件事件模型,扩展了注意力的应用,使智能体能够关注其他智能体的信念,从而改善对人类注意偏见的建模能力。

A Logic of General Attention Using Edge-Conditioned Event Models (Extended Version)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种结合自监督训练与多列卷积神经网络的新方法,针对人群场景分析中的人群计数和异常检测,显著提升了复杂场景的处理能力,性能优于现有方法。

Deep Learning-Based Crowd Scene Analysis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究针对DCASE 2025挑战的任务五,定义了三个子集,以评估音频语言模型在复杂场景中的问答能力,旨在提升其理解与推理能力。

面向声学内容推理的多领域音频问答研究——DCASE 2025挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了新的视频数据集R^3-VQA,以解决社交推理任务的复杂性不足问题。研究表明,现有视觉语言模型在复杂社交场景中的推理能力仍低于人类,而心理理论的应用可以提升其社交推理能力。

R^3-VQA: 通过视频社交推理“读懂房间”

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

文章强调AI基准测试的重要性,指出应定义更贴近现实的问题,以提高AI模型的实用性。目前的基准测试多集中于封闭任务,缺乏对复杂现实场景的评估。未来需为不同领域设计专门的基准测试,以促进AI Agent的有效应用。

做好 AI Agent 最重要的是什么

bang's blog
bang's blog · 2025-04-27T10:15:26Z
机器人手在新物体上的抓取成功率达到85%

研究人员开发了一种名为RoboGrasp的机器人手,能够从单视图图像中学习生成有效的抓取动作。在真实实验中,该机器人在新物体上的抓取成功率达到85%,并能应对部分遮挡和杂乱环境等复杂场景。

机器人手在新物体上的抓取成功率达到85%

DEV Community
DEV Community · 2025-04-13T06:36:53Z
IC-Light的视频版本来了,RelightVid:强光动态环境下的视频光照编辑神器

复旦、交大、浙大和斯坦福的学者推出了视频光照编辑工具RelightVid,能够高质量地进行时序一致的光影编辑,解决动态光照的挑战。该工具结合静态图像和视频,在保持内容不变的情况下实现光照变化,展示了在复杂场景中的应用潜力。

IC-Light的视频版本来了,RelightVid:强光动态环境下的视频光照编辑神器

机器之心
机器之心 · 2025-04-11T03:15:27Z

本研究提出了一种新方法LMAffordance3D,通过语言指令、视觉观察和交互来定位3D空间中的可操控物体,成功连接感知与行动。实验结果表明该方法在复杂场景中表现优越。

Grounding 3D Object Affordance with Language Instructions, Visual Observations, and Interactions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z
Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律

香港大学的余鑫博士生与齐晓娟教授联合提出了ObjectMover模型,旨在解决图像编辑中的物体移动、插入和删除问题。该模型结合视频扩散模型与虚幻引擎生成合成数据,能够自动调整光影效果,保持物体特征,显著提升图像质量与真实感。实验结果表明,ObjectMover在复杂场景处理上优于现有技术。

Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律

机器之心
机器之心 · 2025-03-29T12:17:44Z

本研究提出了一种新方法,通过语言描述控制对象中心表示学习,解决了现有模型可控性不足的问题。该方法能够在复杂场景中提取特定对象的表示,并在视觉语言任务中表现优异。

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本研究提出了一种检索增强决策(RAD)框架,旨在提高自动驾驶系统在复杂场景下的高层元动作理解和决策准确性。实验结果表明,RAD在主要评估指标上优于基线方法,显著提升了自动驾驶任务的决策能力。

基于检索增强的元动作决策:视觉语言模型在自动驾驶中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本文提出了一种基于雷诺传输定理的雷诺流方法,克服了传统光流估计在复杂场景中的局限,尤其是在亮度一致性和慢速运动假设方面。该方法实现了无训练的流动估计,并在多个视频基准测试中展现出优异的鲁棒性和效率。

Reynolds Flow: Accurate Motion Estimation via the Reynolds Transport Theorem

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
在.NET中比较JSON库:Newtonsoft.Json与System.Text.Json

.NET中有两种流行的JSON库:Newtonsoft.Json和System.Text.Json。Newtonsoft.Json需单独安装,适合复杂场景;System.Text.Json内置于.NET Core 3.0及以上,性能更佳,适合AOT编译。两者各有优缺点。

在.NET中比较JSON库:Newtonsoft.Json与System.Text.Json

DEV Community
DEV Community · 2025-02-20T01:15:49Z

本文提出了一种新型密集长期追踪模型MFTIQ,显著提升了视频序列中的点级视觉追踪准确性和灵活性,尤其在复杂场景中表现突出。实验结果表明其处理速度快,性能与先进追踪器相当。

Multi-Stream Tracker with Independent Matching Quality Estimation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

该研究提出了一种新型3D聚焦与匹配网络,解决了复杂场景中多实例点云配准的精确性问题,实验结果在公共基准上表现优异。

用于多实例点云配准的3D聚焦匹配网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究提出了一种标记合并(ToMe)方法,通过聚合相关标记来改善文本到图像模型的语义绑定,实验结果表明其在复杂场景中表现优异。

无训练的文本到图像合成中的语义绑定的标记合并

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究解决了行为克隆在复杂场景中对大量示范需求的低效率问题,表明通过特征表征可以提升神经策略的泛化能力。

行为克隆中的问题空间转换以提高泛化能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码