BriefGPT - AI 论文速递 ·

选择性场景文本去除

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本文重新评估了场景文字识别（STR）的性能，并观察到常见基准的挑战程度较低。作者整理了一个大规模的真实STR数据集Union14M，评估STR在真实场景中的表现。13个模型在有标签图像上的平均准确率只有66.53％，并确定了STR领域的七个难题。作者发现通过自监督预训练利用未标记图像可以提高STR模型的鲁棒性，并取得了最先进的性能。

🎯

关键要点

本文重新评估了场景文字识别（STR）的性能。
常见基准的挑战程度较低，导致性能饱和的趋势。
整理了一个大规模的真实STR数据集Union14M，包括400万张带标签图像和1000万张未标记图像。
13个模型在400万张有标签图像上的平均准确率只有66.53%。
通过分析模型的错误模式，确定了STR领域的七个难题。
构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的发展。
利用自监督预训练可以显著提高STR模型的鲁棒性，并取得最先进的性能。

🏷️

继续阅读

NAD+补充剂真能抗衰老？六十项临床数据揭开非线性响应真相
人类往身体里灌NAD+，就像给一台老电脑强行超频，但主板上的电容随时可能炸。八十多项临床研究、三十多项人体试验反复确认一件事：口服NAD+前体确实能把血...
Agent Runtime 上线 Gitee 后，我更想看它怎么处理线上那堆脏活
ZGI 把 Agent Runtime 放到 Gitee，并开放源码和部署文档。比起“又一个 Agent 框架”，我更关心它能不能把执行、追踪、管理这些偏...
三套外壳性能对比：Claude Code/OpenCode/Pi（搭载DeepSeek）
Claude Code跑8分钟，OpenCode跑3分钟，Pi跑2分钟，质量一样同一个DeepSeek V4 Flash模型，修复同样的八个代码缺陷，C...
Anthropic 删了 80% 提示词，但你不能照做
TL;DR Anthropic 砍掉了 Claude Code 系统提示词的 80% 以上，编码评测没有可测量的损失。但这句话真正证明的，是那 80% ...
伦敦大学两千人追踪30年：一直穷会掏空脑容量
没钱的人脑子老得快。这结论扎心不？持续缺钱不光掏空钱包，还直接吃掉脑子。伦敦大学学院跟踪两千多人三十年的研究发现，长期经济困难的人在五十三岁时认知测试分...
Champagne and Bullets belongs on the Mount Rushmore of bad movies
There's something about a movie like The Room, Troll 2, or Fateful Findin...