小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

dots.ocr 是小红书 hi lab 发布的多语言文档解析模型,具备轻量化设计和精准文本提取能力,支持100种语言,能处理模糊扫描件和倾斜快拍,识别效果优于大型模型,适合实时文字识别。

在线教程 | 突破结构化文档依赖,dots.ocr 基于 1.7B 参数实现百种语言 OCR 处理,性能达 SOTA

HyperAI超神经
HyperAI超神经 · 2025-08-28T05:23:06Z
NVIDIA AI 发布 Streaming Sortformer:实时说话人日志分析工具,可立即识别会议和通话中谁在说话

NVIDIA 发布了 Streaming Sortformer,能够在嘈杂环境中实时识别最多四位说话者,支持英语和普通话,具备低延迟和高精度,适用于会议记录和联络中心,推动对话式 AI 发展。

NVIDIA AI 发布 Streaming Sortformer:实时说话人日志分析工具,可立即识别会议和通话中谁在说话

实时互动网
实时互动网 · 2025-08-22T02:16:59Z

本文介绍了一款基于PaddleOCR的WinForm程序,演示如何实时捕捉视频并进行文字识别。该项目使用.NET 8.0开发,集成了PaddleOCRSharp和OpenCvSharp4,支持自动和手动OCR识别,具备多语言识别能力,代码结构简洁,适合开发者学习和扩展。

轻量高效!基于 PaddleOCR 的 WinForm 实现摄像头实时多语言OCR识别

dotNET跨平台
dotNET跨平台 · 2025-07-22T00:03:13Z

本研究提出了一种新颖的轻量级多模态人工智能框架,旨在提高海洋多场景识别的精度。该框架结合图像数据、文本描述和分类向量,实验准确率达到98%,比之前最佳模型提升3.5%。此技术适用于资源受限平台,提供高性能的实时识别解决方案。

Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

微软的语音识别服务通过Speech Studio提供高效的说话人区分解决方案,适用于电话录音等场景。使用C# SDK可实现实时语音识别,输出文本和说话人ID,便于后续处理。

深度解读微软Speech服务:让语音识别走进现实

dotNET跨平台
dotNET跨平台 · 2024-11-22T23:55:57Z

本研究提出了SPRMamba框架,解决了内镜下黏膜下解剖手术中手术阶段实时识别的准确性问题。实验结果显示,SPRMamba在不同的手术阶段识别任务中优于现有的最佳方法。

SPRMamba:基于Mamba的内镜下黏膜下解剖手术阶段识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

该论文提出了一种基于大规模基础模型的工业人工行为识别方法,联合使用了各种方法,实现低成本数据集建立和实时识别。该方法在大规模工业制造线上测试中降低了就业成本,具有出色的实时性能和准确性,适用于大规模工业应用。

基于大规模基础模型的低成本实时工业人体动作识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码