小红花·文摘

为什么你的AI输出是错误的：分词的隐秘影响

DEV Community ·

本研究提出了一种全景畸变感知分词方法，旨在提高从鱼眼图像中检测人物的准确性。通过分析人物在图像顶部的高度变化，结合图像重映射与分词，显著改善了检测效果，解决了人物旋转和小型人物的检测问题。

Method for Person Detection and Localization in Fisheye Images Based on Panoramic Distortion-Aware Tokenization

BriefGPT - AI 论文速递 ·

本研究提出了一种名为MultiTok的新分词方法，灵感来源于LZW压缩，旨在提高大型语言模型的训练效率。MultiTok通过将重复短语压缩为多词令牌，实现了接近2.5倍的训练速度提升和超过30%的数据减少，同时保持相似的准确性。

MultiTok: A Variable-Length Tokenization Method Adapted from LZW Compression for Efficient Large Language Models

BriefGPT - AI 论文速递 ·

本文分析了不同分词方法（如BPE和unigram）对Transformer语言模型的影响，发现unigram在任务表现上优于BPE，建议开发者采用unigram。同时，研究提出了一种新型分词器LiB，能够有效减少标记数量并提升模型适应性。实验结果强调了分词在现代大语言模型中的重要性，并探讨了分词器优化对生成速度和上下文大小的影响。

数据混合推断：BPE 分词器对其训练数据的揭示

BriefGPT - AI 论文速递 ·

大模型相关论文笔记

靖待的技术博客 ·