InfoQ ·

IBM发布Granite-Docling-258M，一款紧凑型视觉语言模型，用于精确的文档转换

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

IBM研究推出了Granite-Docling-258M，这是一种开源视觉语言模型，专注于高保真文档转文本转换，能够保留复杂的布局和结构。尽管参数仅有2.58亿，但其准确性与更大模型相当，适合文档解析和数据集准备。该模型支持多语言，旨在与Docling库结合，优化企业文档工作流程。

🎯

❓

Granite-Docling-258M是一款专注于高保真文档转文本转换的视觉语言模型，能够保留复杂的布局和结构。

与典型的OCR系统不同，Granite-Docling是专门为文档解析而设计，能够保留文档的精确结构，而不仅仅是提取文本。

Granite-Docling-258M的参数数量为2.58亿。

Granite-Docling-258M目前支持阿拉伯语、中文和日语的实验性多语言功能。

该模型通过改进的数据集过滤和注释清理，解决了令牌重复和解析不完整等稳定性问题。

社区反应积极，认为该模型适合在设备上使用，低端手机也能实现本地推理。

🏷️

Translumo：一款实时屏幕翻译工具，支持多语言和多OCR引擎
Translumo是一款实时屏幕翻译工具，支持多语言和高精度OCR，适用于游戏和视频等内容的快速翻译。它开源、完全本地化，使用简便，适合多种应用场景。
在线教程丨华中科大与小红书 hi lab开源dots.mocr，SOTA级OCR模型完美还原文档结构，图形也能转 SVG
华中科技大学与小红书hi lab联合开源了dots.mocr，这是一个SOTA级OCR模型，能够完美还原文档结构并将图形转换为SVG格式。
微软发布全新的多语言嵌入模型 Harrier-OSS-v1，为多种语言提供高质量的语义表示
微软推出Harrier-OSS-v1，包含三种多语言文本嵌入模型，支持32,768词元的长上下文，采用解码器架构，需指令调优以提升检索性能。在多语言MTE...
文档数据库：诚实面对
传统的MongoDB和Postgres难以处理高容量时间序列数据，而使用Postgres的专用时间序列存储（如TimescaleDB）可以有效解决这一问题...
通过Gemini API文档MCP和代理技能提升编码代理的性能
Gemini API文档MCP通过模型上下文协议连接编码代理与最新的Gemini API文档、SDK和模型信息，确保编码代理能够访问最新的API和最佳配置。
The Artemis Moon base project is legally dubious
With NASA planning to launch four astronauts on Wednesday on its Artemis II m...