实时互动网 ·

One-D-Piece：图像Tokenizer满足质量可控压缩

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

本文介绍了一种名为One-D-Piece的可变长度离散图像分词器，采用“Tail Token Drop”技术，优化了图像压缩和重建质量。该方法在保持高重建质量的同时，支持灵活的令牌数量，显著优于传统压缩方法，如JPEG和WebP，适用于多种计算机视觉任务。

🎯

🔎

One-D-Piece的可变长度分词技术使得图像压缩更加灵活，能够根据图像内容动态调整令牌数量。这种灵活性不仅提高了压缩效率，还在保持高重建质量的同时，适应了不同应用场景的需求，尤其是在复杂图像处理时表现更为突出。

Tail Token Drop技术通过优先保留序列开头的关键信息，显著提升了图像重建的感知质量。这一方法的有效性在多个下游任务中得到了验证，表明其在图像分类和对象检测等领域的广泛适用性，值得关注其在未来应用中的潜力。

与JPEG和WebP等传统图像压缩方法相比，One-D-Piece在感知质量上表现出明显优势，尤其是在低令牌数量的情况下。这一发现强调了新型分词器在现代计算机视觉任务中的重要性，可能会推动图像处理技术的进一步发展。

❓

One-D-Piece是一种可变长度的离散图像分词器，采用Tail Token Drop技术以优化图像压缩和重建质量。

Tail Token Drop技术鼓励关键信息集中在标记序列的头部，从而提高压缩效率和重建质量。

One-D-Piece在感知质量上显著优于传统压缩方法，如JPEG和WebP，尤其是在低令牌数量时。

One-D-Piece适用于图像分类、对象检测、语义分割等多种计算机视觉任务。

One-D-Piece的训练分为两个阶段，首先训练模型预测分词器的logits，然后优化模型重建图像。

在ImageNet-1K数据集上，One-D-Piece的性能优于现有的可变长度压缩方法，显示出高重建质量。

🏷️