One-D-Piece:图像Tokenizer满足质量可控压缩

One-D-Piece:图像Tokenizer满足质量可控压缩

💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

本文介绍了一种名为One-D-Piece的可变长度离散图像分词器,采用“Tail Token Drop”技术,优化了图像压缩和重建质量。该方法在保持高重建质量的同时,支持灵活的令牌数量,显著优于传统压缩方法,如JPEG和WebP,适用于多种计算机视觉任务。

🎯

关键要点

  • One-D-Piece是一种可变长度离散图像分词器,采用Tail Token Drop技术。
  • 该方法优化了图像压缩和重建质量,支持灵活的令牌数量。
  • 与传统压缩方法(如JPEG和WebP)相比,One-D-Piece在感知质量上显著优越。
  • 该分词器在多个计算机视觉任务中表现出色,包括图像分类、对象检测和语义分割。
  • Tail Token Drop技术鼓励关键信息集中在标记序列的头部,提高了压缩效率。
  • One-D-Piece在ImageNet-1K数据集上进行评估,显示出优于现有可变长度压缩方法的性能。
  • 该方法为视觉语言模型和图像视频生成任务提供了新的应用潜力。
➡️

继续阅读