MiniMax海螺视频团队首次开源了视觉分词器预训练框架VTP,解决了算力与生成效果不成正比的问题。研究表明,传统Tokenizer的重建精度与生成质量无关,而VTP强调理解力,提升生成性能。VTP展示了Tokenizer的Scaling Law,优化Tokenizer可有效提升生成系统性能。
微软开源的VibeVoice-1.5B模型在TTS领域备受关注,能够生成90分钟的高自然度语音,支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术,MOS评分达到4.5。该模型主要面向科研和开发者,目前仅支持中英文,强调研究用途以防滥用。
本文介绍了仓颉分词器在自然语言处理中的重要性,能够将文本转换为模型可理解的数字序列,并支持编码与解码。用户可通过华为云开发者空间快速部署Qwen2模型,体验分词器在模型开发中的应用。
2025年6月Rust更新包括Rust-Analyzer的新功能和改进,提升了功能性和稳定性。gpt-rs库简化了GPT模型调用,Uzu引擎优化了AI推理。ZeroFS增强了NFS服务器性能,Thunk支持XP,EdgeLinkd兼容Node-RED。Rodio音频库更新了API,intern-mint实现了字节切片共享。Bitpiece库简化了位字段操作,Rwatch替代传统的watch命令。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。
本研究提出了两项创新,旨在解决预训练语言模型在固定分词方案下的低效问题,特别是在多语言和专业应用中。通过Tokenadapt分词器移植和多词超标记的预分词学习,显著降低了重新训练的需求并提升了性能,展现出广泛的潜在影响。
研究者提出了一种名为FlowMo的图像tokenization改进方案,通过两阶段训练提升图像重建质量。FlowMo在ImageNet-1K数据集上表现优异,采用基于Transformer的扩散自编码器,优化了图像压缩与重建过程。
本研究提出了SemHiTok,一种通过语义引导的层次化代码本实现的统一图像标记器,旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取,实验结果显示在256X256分辨率下达到了先进的rFID得分。
本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。
本文介绍了一种名为One-D-Piece的可变长度离散图像分词器,采用“Tail Token Drop”技术,优化了图像压缩和重建质量。该方法在保持高重建质量的同时,支持灵活的令牌数量,显著优于传统压缩方法,如JPEG和WebP,适用于多种计算机视觉任务。
深度寻求(deepseek)近期引发全球关注,推动了大模型的热度。文章探讨了π0_FAST模型在高频机器人控制中的应用,提出了一种基于时间序列压缩的新分词技术,旨在提高VLA模型的训练效率和性能。该技术通过减少连续动作间的相关性,显著提升训练效果,并在多任务机器人操控中表现优异。
本研究提出了一种高效的扩散标记器DiTo,旨在提升图像生成模型中的图像标记效率和质量。实验结果表明,DiTo在图像重构和生成任务中表现优异。
本研究提出了一种新的视觉到概念(V2C)标记器,旨在解决传统概念瓶颈模型在视觉识别中对专家知识的依赖。通过该标记器,可以直接从多模态模型构建概念瓶颈模型,从而显著提高分类准确性和可解释性。研究结果表明,V2C-CBM在多个视觉分类基准测试中表现优异。
微软开源了新的视频Tokenizer VidTok,其性能显著优于Cosmos Tokenizer和Open-Sora。VidTok支持多种设置,适用于不同场景,并可在自定义数据集上微调。其创新架构和量化技术提升了重建质量和训练效率,为视频生成和世界模型研究提供了强大工具。
该研究提出了一种新颖的多层最优传输方法,克服了现有知识蒸馏在教师和学生模型对齐标记器方面的局限性。该方法在抽取式问答、生成式问答和摘要任务中表现优异,超越了现有技术,展现出强鲁棒性。
本研究提出了一种名为ECG-Byte的分词器,用于多通道心电图生成文本任务。该方法通过自回归语言建模,将心电图信号压缩为可映射的令牌,实现端到端训练。与传统方法相比,ECG-Byte在性能上具有竞争力,训练时间减少一半,数据需求降低约48%。
本文介绍了一种名为VidTok的开源视频标记器,旨在解决视频生成和理解中的像素级冗余问题。VidTok结合了卷积层和缩放模块等架构改进,并采用有限标量量化技术,显著提升了性能,优于现有方法。
本研究提出了一种基于离散小波变换的图像光谱标记新方法,解决了现有图像标记器在自回归建模中的不足。该方法能够重构不同分辨率的图像,并提高下一个标记预测的条件化效果,显著改善多尺度图像生成和上采样能力。
tokenizer在图像和视频生成中至关重要,优秀的tokenizer能显著提升生成效果。英伟达推出的Cosmos tokenizer具备高效压缩和高质量重建能力,速度是以往方法的12倍,支持多种视觉数据类型,表现优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。