LightOnOCR-2-1B:基于 RLVR 训练实现高精度端到端 OCR;Google Streetview 国家街景图像:基于世界级地理映射技术的全景图像开源库

📝

内容提要

这个仅 10 亿参数的端到端视觉-语言模型,在权威基准 OlmOCR-Bench 上实现了新的 SOTA,性能超越此前最佳的 90 亿参数模型,同时体积缩小 9 倍、推理速度提升数倍。LightOnOCR-2-1B 用一个统一模型直接从像素生成结构化的有序文本和图像边界框,通过集成预训练组件、高质量的蒸馏数据以及 RLVR...

🏷️

标签

➡️

继续阅读