小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP,解决了算力与生成效果不成正比的问题。研究表明,传统Tokenizer的重建精度与生成质量无关,而VTP强调理解力,提升生成性能。VTP展示了Tokenizer的Scaling Law,优化Tokenizer可有效提升生成系统性能。

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

量子位
量子位 · 2025-12-22T05:02:28Z

微软开源的VibeVoice-1.5B模型在TTS领域备受关注,能够生成90分钟的高自然度语音,支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术,MOS评分达到4.5。该模型主要面向科研和开发者,目前仅支持中英文,强调研究用途以防滥用。

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界

HyperAI超神经
HyperAI超神经 · 2025-09-08T08:05:25Z

本文介绍了仓颉分词器在自然语言处理中的重要性,能够将文本转换为模型可理解的数字序列,并支持编码与解码。用户可通过华为云开发者空间快速部署Qwen2模型,体验分词器在模型开发中的应用。

跨平台分词利器:基于开发者空间进行仓颉版Tokenizer的Qwen模型适配

华为云官方博客
华为云官方博客 · 2025-08-05T06:45:11Z
【Rust日报】2025-07-15 GPT-rs:用 Rust 实现和训练 Transformer & Tokenizer

2025年6月Rust更新包括Rust-Analyzer的新功能和改进,提升了功能性和稳定性。gpt-rs库简化了GPT模型调用,Uzu引擎优化了AI推理。ZeroFS增强了NFS服务器性能,Thunk支持XP,EdgeLinkd兼容Node-RED。Rodio音频库更新了API,intern-mint实现了字节切片共享。Bitpiece库简化了位字段操作,Rwatch替代传统的watch命令。

【Rust日报】2025-07-15 GPT-rs:用 Rust 实现和训练 Transformer & Tokenizer

Rust.cc
Rust.cc · 2025-07-16T03:51:45Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

机器之心
机器之心 · 2025-07-12T13:34:06Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式

机器之心
机器之心 · 2025-05-27T07:25:39Z

本研究提出了两项创新,旨在解决预训练语言模型在固定分词方案下的低效问题,特别是在多语言和专业应用中。通过Tokenadapt分词器移植和多词超标记的预分词学习,显著降低了重新训练的需求并提升了性能,展现出广泛的潜在影响。

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

研究者提出了一种名为FlowMo的图像tokenization改进方案,通过两阶段训练提升图像重建质量。FlowMo在ImageNet-1K数据集上表现优异,采用基于Transformer的扩散自编码器,优化了图像压缩与重建过程。

李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

机器之心
机器之心 · 2025-03-20T06:30:46Z

本研究提出了SemHiTok,一种通过语义引导的层次化代码本实现的统一图像标记器,旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取,实验结果显示在256X256分辨率下达到了先进的rFID得分。

SemHiTok: A Unified Image Tokenizer Implemented via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。

UniTok: A Unified Tokenizer for Visual Generation and Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
One-D-Piece:图像Tokenizer满足质量可控压缩

本文介绍了一种名为One-D-Piece的可变长度离散图像分词器,采用“Tail Token Drop”技术,优化了图像压缩和重建质量。该方法在保持高重建质量的同时,支持灵活的令牌数量,显著优于传统压缩方法,如JPEG和WebP,适用于多种计算机视觉任务。

One-D-Piece:图像Tokenizer满足质量可控压缩

实时互动网
实时互动网 · 2025-02-19T03:42:13Z

深度寻求(deepseek)近期引发全球关注,推动了大模型的热度。文章探讨了π0_FAST模型在高频机器人控制中的应用,提出了一种基于时间序列压缩的新分词技术,旨在提高VLA模型的训练效率和性能。该技术通过减少连续动作间的相关性,显著提升训练效果,并在多任务机器人操控中表现优异。

自回归版π0-FAST——打造高效Tokenizer:比扩散π0的训练速度快5倍但效果相当(含π0-FAST源码剖析)

结构之法 算法之道
结构之法 算法之道 · 2025-02-06T13:25:22Z

本研究提出了一种高效的扩散标记器DiTo,旨在提升图像生成模型中的图像标记效率和质量。实验结果表明,DiTo在图像重构和生成任务中表现优异。

Diffusion Autoencoder as a Scalable Image Tokenizer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-30T00:00:00Z

本研究提出了一种新的视觉到概念(V2C)标记器,旨在解决传统概念瓶颈模型在视觉识别中对专家知识的依赖。通过该标记器,可以直接从多模态模型构建概念瓶颈模型,从而显著提高分类准确性和可解释性。研究结果表明,V2C-CBM在多个视觉分类基准测试中表现优异。

V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

微软开源了新的视频Tokenizer VidTok,其性能显著优于Cosmos Tokenizer和Open-Sora。VidTok支持多种设置,适用于不同场景,并可在自定义数据集上微调。其创新架构和量化技术提升了重建质量和训练效率,为视频生成和世界模型研究提供了强大工具。

微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

量子位
量子位 · 2024-12-26T04:00:18Z

该研究提出了一种新颖的多层最优传输方法,克服了现有知识蒸馏在教师和学生模型对齐标记器方面的局限性。该方法在抽取式问答、生成式问答和摘要任务中表现优异,超越了现有技术,展现出强鲁棒性。

Multi-Level Optimal Transport Method for Universal Cross-Tokenizer Knowledge Distillation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了一种名为ECG-Byte的分词器,用于多通道心电图生成文本任务。该方法通过自回归语言建模,将心电图信号压缩为可映射的令牌,实现端到端训练。与传统方法相比,ECG-Byte在性能上具有竞争力,训练时间减少一半,数据需求降低约48%。

ECG-Byte: A Tokenizer for End-to-End Generative Electrocardiogram

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本文介绍了一种名为VidTok的开源视频标记器,旨在解决视频生成和理解中的像素级冗余问题。VidTok结合了卷积层和缩放模块等架构改进,并采用有限标量量化技术,显著提升了性能,优于现有方法。

VidTok: A Versatile Open-Source Video Tokenizer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究提出了一种基于离散小波变换的图像光谱标记新方法,解决了现有图像标记器在自回归建模中的不足。该方法能够重构不同分辨率的图像,并提高下一个标记预测的条件化效果,显著改善多尺度图像生成和上采样能力。

Spectral Image Tokenizer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer

tokenizer在图像和视频生成中至关重要,优秀的tokenizer能显著提升生成效果。英伟达推出的Cosmos tokenizer具备高效压缩和高质量重建能力,速度是以往方法的12倍,支持多种视觉数据类型,表现优于现有技术。

英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer

机器之心
机器之心 · 2024-11-23T15:27:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码