HyperAI超神经 ·

LightOnOCR-2-1B：基于 RLVR 训练实现高精度端到端 OCR；Google Streetview 国家街景图像：基于世界级地理映射技术的全景图像开源库

📝

内容提要

这个仅 10 亿参数的端到端视觉-语言模型，在权威基准 OlmOCR-Bench 上实现了新的 SOTA，性能超越此前最佳的 90 亿参数模型，同时体积缩小 9 倍、推理速度提升数倍。LightOnOCR-2-1B 用一个统一模型直接从像素生成结构化的有序文本和图像边界框，通过集成预训练组件、高质量的蒸馏数据以及 RLVR...

🏷️

继续阅读

卡帕西开源Agent自进化训练框架，5分钟一轮实验，48h内揽星9.5k
卡帕西推出开源项目autoresearch，旨在让AI自主进行科研。该框架仅630行代码，支持单GPU运行，每5分钟进行一次实验，AI根据结果自我调整。未...
大多数杰出AI项目壮观失败的技术飞跃
该文章介绍了一款AI性能优化工具包，提供混合精度、层融合和批量大小优化等多种方法，旨在提升模型推理和训练性能，降低内存使用和成本。
比亚迪发布「5 分钟」闪充技术，最受伤的不是蔚来
比亚迪推出的第二代刀片电池和闪充技术引发了蔚来的担忧。比亚迪的闪充技术在极端环境下也能快速充电且安全性高。蔚来CEO承认短期内不会受到影响，但长远来看，闪...
AReaL x 昇腾，加速大模型全异步RL训练创新
AReaL框架通过全异步强化学习训练，简化大模型开发，提升训练效率和系统可靠性。其核心优势在于解耦式Agentic RL和Single Controlle...
科研AI出了个狠角色：开源30B小模型，硬刚Gemini和Claude
UniScientist是一个开源的30B参数AI模型，能够实现科研闭环，包括提出假设、收集证据和验证。通过动态系统建模和人类专家的验证，该模型提升了科研...
摩尔线程MTVSR实时视频超分技术：让经典影像获高清“重生”
随着4K显示器的普及，720p和1080p的视频内容仍然占主导，影响观看体验。摩尔线程的MTVSR技术通过实时超分辨率提升视频清晰度，保留原始文件，支持多...

LightOnOCR-2-1B：基于 RLVR 训练实现高精度端到端 OCR；Google Streetview 国家街景图像：基于世界级地理映射技术的全景图像开源库

内容提要

标签

继续阅读