小红花·文摘

基于jina-reranker-m0的多模态文档公平评分

Jina AI ·

该研究提出了一种新的文本图像相互感知方法，旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。通过引入最小超球能量和文本感知图像调整机制，实验结果表明该方法在抵御对抗扰动的同时，保持了模型的零-shot泛化能力。

文本引导注意力是实现视觉语言模型零样本鲁棒性的全部需要

BriefGPT - AI 论文速递 ·

本文介绍了基于直线检测的文本图像倾斜校正的代码实现，使用OpenCvSharp库进行图像处理，包括灰度化、二值化、膨胀、边缘检测等步骤。通过Hough变换检测直线并计算平均角度，最后利用旋转矩阵对图像进行校正。

C# OpenCvSharp 基于直线检测的文本图像倾斜校正

dotNET跨平台 ·

为了解决合成篡改无法充分复制真实世界篡改属性的问题，研究人员提出了一个包含14250个文本图像的RTM数据集，其中包括手动和自动篡改的图像。他们提出了一个基线解决方案，采用一致性感知的聚合中心和门控交叉邻域注意融合模块，以及被篡改-真实对比学习模块，提高了文本伪造检测的性能。这个框架可以扩展到其他双流体系结构，对手动和总体篡改的定位性能分别提高了7.33%和6.38%。他们的研究旨在推动现实世界文本篡改检测的进展。

朝着真实文本操纵检测的目标：新数据集和新解决方案

BriefGPT - AI 论文速递 ·