小红花·文摘

腾讯发布的HunyuanOCR模型是一款轻量级开源OCR视觉语言模型，具备高效的文本检测、识别和复杂文档解析能力。该模型采用端到端架构，结合原生ViT和轻量LLM，克服了传统模型的局限性，已在多个平台开源，推动科研与工业应用。

混元OCR模型核心技术揭秘：统一框架、真端到端

量子位 ·

本研究提出了一种新的对比性改写攻击方法（CoPA），旨在绕过大型语言模型（LLMs）的文本检测。CoPA通过设计指令，利用现有LLMs生成更人性化的文本，并构建辅助特征词分布，从而降低检测率。实验结果表明，CoPA在多种场景下有效。

你的语言模型可以秘密地像人类一样写作：对大型语言模型生成文本检测器的对比性改写攻击

BriefGPT - AI 论文速递 ·

本文提出了一种有效的AI生成文本检测方法，通过向数据集中添加噪声来增强模型的鲁棒性和泛化能力。研究结果表明，该方法在文本检测中表现优异，为相关领域的发展设定了新标准。

Detecting AI-Generated Text Using Noised Data and an Ensemble of DeBERTa Models

BriefGPT - AI 论文速递 ·

本研究探讨了区分人类生成文本与大型语言模型（LLM）生成文本的挑战，提出了基于LLM的检测和解释方法。结果表明，LLM在检测自身生成文本时表现优于他人生成文本，但仍需改进。将二分类任务扩展为三分类任务显著提高了检测准确性和解释质量。

"I Know Myself, But Not Really Deeply": Using Large Language Models to Detect and Explain LLM-Generated Texts

BriefGPT - AI 论文速递 ·

本研究针对GLTR工具在检测AI生成文本时的模糊性问题，提出了一种改进模型。实验结果表明，该模型在英语数据集上取得了80.19%的宏F1-score，优于现有模型，展示了其在AI文本检测中的潜力。

AI-generated Text Detection with a GLTR-based Approach

BriefGPT - AI 论文速递 ·

本研究提出了一种水印技术，旨在解决大语言模型（LLMs）在文本修改和生成文本检测中的不足。通过引入“被丢弃的token”指标，该方法有效提高了水印的检测能力，并增强了对不忠实水印的敏感性。

Modification and Generated Text Detection: Achieving Dual Detection Capabilities through Watermarking

BriefGPT - AI 论文速递 ·

本研究探讨了人类识别AI生成文本的能力，发现频繁使用大型语言模型的用户在识别AI文本方面表现优异，几乎没有误判，能够识别复杂的文本特征，为未来的AI文本检测研究提供了重要数据支持。

Users Who Frequently Use ChatGPT for Writing Tasks Are Accurate and Robust Detectors of AI-Generated Text

BriefGPT - AI 论文速递 ·

本研究提出了一种基于逆困惑度加权的微调变换器模型集成方法，旨在提高跨领域机器生成文本的检测准确性。该方法在非对抗和对抗生成文本检测中显著提升了模型性能，展现出广泛的应用潜力。

Application of LuxVeri in GenAI Detection Task 3: Inverse Perplexity-Weighted Ensemble of Fine-Tuned Transformer Models for Cross-Domain Detection of AI-Generated Text

BriefGPT - AI 论文速递 ·

📝✨清晰文本

DEV Community ·

本研究提出了一种新的模型——困惑度注意力加权网络（PAWN），用于检测人工智能生成的文本。该模型通过加权特征显著提升检测性能，具有良好的适应性和鲁棒性，能够在资源要求减少的情况下应对分布变化。

Not All Tokens Are Created Equal: Perplexity Attention Weighted Networks for AI-Generated Text Detection

BriefGPT - AI 论文速递 ·

本研究提出MGTAcademic数据集，以支持大规模语言模型生成文本的检测。通过跨域迁移和自适应方法，显著提升了检测器的性能，为构建更强大的检测系统提供了重要见解。

Research on the Generalization Ability of Machine-Generated Text Detectors

BriefGPT - AI 论文速递 ·

本研究提出Glimpse方法，解决了零-shot LLM生成文本检测中白盒方法无法使用强大专有模型的问题。实验结果表明，Glimpse与Fast-DetectGPT和GPT-3.5结合，AUROC平均值约为0.95，提升幅度达51%。

Glimpse: Enabling White-Box Methods to Utilize Proprietary Models for Zero-Shot LLM-Generated Text Detection

BriefGPT - AI 论文速递 ·

Google DeepMind 推出了 SynthID-Text 技术，为 AI 内容监管提供了解决方案

HyperAI超神经 ·

本研究提出了一种多场景文本检测器，有效解决了智能交通中实时文本检测的速度和准确性问题，尤其在运动模糊情况下表现优异。

Real-time Text Detection with Similar Masks in Transportation, Industrial, and Natural Scenes

BriefGPT - AI 论文速递 ·

本研究提出了新的基准检测工具DetectRL，旨在解决大语言模型生成文本检测的可靠性问题，并评估不同检测器在实际应用中的表现，推动检测技术的发展。

DetectRL：在现实场景中基准测试LLM生成文本检测

BriefGPT - AI 论文速递 ·

本研究提出GigaCheck，结合大型语言模型与计算机视觉技术，旨在有效区分人类与人工生成文本，提高检测准确性。实验结果表明其在多个数据集上表现优异。

GigaCheck：检测大型语言模型生成的内容

BriefGPT - AI 论文速递 ·

本文介绍了READ框架，利用递归自动编码器生成多样的文档2D布局。通过递归提取文档结构，并用标注数据集学习结构表示，将其映射到高斯空间生成新布局。引入组合度量评估布局相似性，证明生成布局具有高可变性和实际应用性，尤其在文本检测任务中表现出色。

DocLayout-YOLO：通过多样化合成数据和全局到局部自适应感知增强文档布局分析

BriefGPT - AI 论文速递 ·

现有OCR引擎需要独立模型进行文本检测，计算复杂。DAT模型将文本检测、布局分析和文档检测整合为一个系统，通过交互式注意力模块和提示分割模块提升复杂布局的准确性。实验显示，DAT在多种任务中表现优异。

关注整体与感知环境以检测任意形状文本

BriefGPT - AI 论文速递 ·

本论文介绍了一种基于FOTS网络的文本检测和识别方法，通过使用RoIRotate的共享计算和视觉信息策略，性能优于两阶段方法，并在ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013数据集上表现显著优于先前方法。

通过阅读顺序估计和动态采样实现类似逆操作的场景文本定位

BriefGPT - AI 论文速递 ·

本文介绍了基于MS COCO数据集的COCO-Text数据集，包含超过173,000个文本注释和超过63,000张图像，旨在推进自然图像的文本检测和识别。三种最先进的光学字符识别方法在数据集上的表现进行了分析，结果表明文本检测和识别存在显著的不足，需要进一步研究。

评估一个基准测试：MS-COCO 的可靠性如何？

BriefGPT - AI 论文速递 ·