腾讯发布的HunyuanOCR模型是一款轻量级开源OCR视觉语言模型,具备高效的文本检测、识别和复杂文档解析能力。该模型采用端到端架构,结合原生ViT和轻量LLM,克服了传统模型的局限性,已在多个平台开源,推动科研与工业应用。
本研究提出了一种新的对比性改写攻击方法(CoPA),旨在绕过大型语言模型(LLMs)的文本检测。CoPA通过设计指令,利用现有LLMs生成更人性化的文本,并构建辅助特征词分布,从而降低检测率。实验结果表明,CoPA在多种场景下有效。
本文提出了一种有效的AI生成文本检测方法,通过向数据集中添加噪声来增强模型的鲁棒性和泛化能力。研究结果表明,该方法在文本检测中表现优异,为相关领域的发展设定了新标准。
本研究探讨了区分人类生成文本与大型语言模型(LLM)生成文本的挑战,提出了基于LLM的检测和解释方法。结果表明,LLM在检测自身生成文本时表现优于他人生成文本,但仍需改进。将二分类任务扩展为三分类任务显著提高了检测准确性和解释质量。
本研究针对GLTR工具在检测AI生成文本时的模糊性问题,提出了一种改进模型。实验结果表明,该模型在英语数据集上取得了80.19%的宏F1-score,优于现有模型,展示了其在AI文本检测中的潜力。
本研究提出了一种水印技术,旨在解决大语言模型(LLMs)在文本修改和生成文本检测中的不足。通过引入“被丢弃的token”指标,该方法有效提高了水印的检测能力,并增强了对不忠实水印的敏感性。
本研究探讨了人类识别AI生成文本的能力,发现频繁使用大型语言模型的用户在识别AI文本方面表现优异,几乎没有误判,能够识别复杂的文本特征,为未来的AI文本检测研究提供了重要数据支持。
本研究提出了一种基于逆困惑度加权的微调变换器模型集成方法,旨在提高跨领域机器生成文本的检测准确性。该方法在非对抗和对抗生成文本检测中显著提升了模型性能,展现出广泛的应用潜力。
我开发了“ClearText”,这是一款AI驱动的文本检测与增强工具,能够清理图像中的文本,适用于文档数字化、书籍扫描和医疗记录等领域。该项目基于CRAFT模型,进行了重要的架构和功能改进,并提供了用户友好的网页界面。
本研究提出了一种新的模型——困惑度注意力加权网络(PAWN),用于检测人工智能生成的文本。该模型通过加权特征显著提升检测性能,具有良好的适应性和鲁棒性,能够在资源要求减少的情况下应对分布变化。
本研究提出MGTAcademic数据集,以支持大规模语言模型生成文本的检测。通过跨域迁移和自适应方法,显著提升了检测器的性能,为构建更强大的检测系统提供了重要见解。
本研究提出Glimpse方法,解决了零-shot LLM生成文本检测中白盒方法无法使用强大专有模型的问题。实验结果表明,Glimpse与Fast-DetectGPT和GPT-3.5结合,AUROC平均值约为0.95,提升幅度达51%。
在AI内容生成日益普及的背景下,Google DeepMind推出了SynthID-Text技术,通过优化Token概率分数嵌入水印,提升文本检测的效率和准确性。这一技术为AI内容监管提供了创新解决方案,确保文本质量不受影响。
本研究提出了一种多场景文本检测器,有效解决了智能交通中实时文本检测的速度和准确性问题,尤其在运动模糊情况下表现优异。
本研究提出了新的基准检测工具DetectRL,旨在解决大语言模型生成文本检测的可靠性问题,并评估不同检测器在实际应用中的表现,推动检测技术的发展。
本研究提出GigaCheck,结合大型语言模型与计算机视觉技术,旨在有效区分人类与人工生成文本,提高检测准确性。实验结果表明其在多个数据集上表现优异。
本文介绍了READ框架,利用递归自动编码器生成多样的文档2D布局。通过递归提取文档结构,并用标注数据集学习结构表示,将其映射到高斯空间生成新布局。引入组合度量评估布局相似性,证明生成布局具有高可变性和实际应用性,尤其在文本检测任务中表现出色。
现有OCR引擎需要独立模型进行文本检测,计算复杂。DAT模型将文本检测、布局分析和文档检测整合为一个系统,通过交互式注意力模块和提示分割模块提升复杂布局的准确性。实验显示,DAT在多种任务中表现优异。
本论文介绍了一种基于FOTS网络的文本检测和识别方法,通过使用RoIRotate的共享计算和视觉信息策略,性能优于两阶段方法,并在ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013数据集上表现显著优于先前方法。
本文介绍了基于MS COCO数据集的COCO-Text数据集,包含超过173,000个文本注释和超过63,000张图像,旨在推进自然图像的文本检测和识别。三种最先进的光学字符识别方法在数据集上的表现进行了分析,结果表明文本检测和识别存在显著的不足,需要进一步研究。
完成下面两步后,将自动完成登录并继续当前操作。