小红花·文摘

本研究分析了现有子词分词方法在蛋白质序列处理中的不足，比较了BPE、WordPiece和SentencePiece，发现它们在表示和域边界保持方面存在显著差异，传统方法需改进以更好适应蛋白质特征。

语言规律与蛋白质序列的结合：子词分词方法的比较分析

BriefGPT - AI 论文速递 ·

本研究探讨了多语言模型中子词共享语义的作用，提出通过合并相似子词形成“语义标记”。结果表明，这种共享语义显著提升了模型在多任务中的表现，尤其在分类任务中，使用语义标记的模型表现优异，强调了其在跨语言迁移中的重要性。

番茄、刀子、番茄：衡量多语言模型中子词共享语义的作用

BriefGPT - AI 论文速递 ·

本研究探讨了形态学类型学对分词和语言建模性能的影响，发现合成语言在BPE分词中表现更佳，揭示了二者之间的相关性。

基于BPE子词生成和语言建模的形态学类型学

BriefGPT - AI 论文速递 ·

该研究分析了大型语言模型对数据隐私的影响，探讨了恶意模型提供者通过输入重建攻击侵犯隐私的风险。研究提出了两种重建方法，发现Embed Parrot在重建原始输入方面效果显著，并提出了保护用户隐私的防御机制，强调在分布式学习系统中增强安全协议的重要性。

字节子词嵌入在不牺牲准确性和复杂性的情况下提升隐私保护

BriefGPT - AI 论文速递 ·

本文介绍了HateXplain，这是首个包含3级分类、目标社区和理由注释的仇恨言论数据集。研究发现，尽管模型在分类上表现良好，但在可解释性上得分不高。使用人类理由训练的模型更能减少对目标社区的偏见。

SWE2：子词丰富且重视显著词的仇恨言论检测框架

BriefGPT - AI 论文速递 ·

本论文提出了一种系统的方法和一个新的数据集VariErr，研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果，发现GPT模型和人类表现更好。该方法适用于NLI，为研究错误与变异提供了基础，以获得更可靠的NLP系统。

SubRegWeigh：有效且高效的带有子词正则化的注释加权

BriefGPT - AI 论文速递 ·

该研究探讨了阈值词汇裁剪在字节对编码子词分词中的应用。实验结果显示，词汇裁剪无法提高性能，甚至可能导致严重的性能下降。

子词正则化的分布特性

BriefGPT - AI 论文速递 ·

该论文介绍了基于字符级别的操作对基于子单词分词的模型具有挑战性，并提出了一种交互式干预训练方法来解决这个问题。该方法能够编码稳健的字符级别信息，并在复杂任务中表现优越。同时，该方法还使得基于子单词的模型具有人类可解释的内部表示形式。

通过字符匹配实现标记对齐用于子词补全

BriefGPT - AI 论文速递 ·

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，发现跨语言单词表的重叠可能对某些下游任务产生负面影响，但在命名实体识别和句子级任务中分享词汇表是有益的。同时，多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

分析子词切分的认知可信度

BriefGPT - AI 论文速递 ·

该研究提出了一种新的动作框架，将会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，该方法在 DealOrNoDeal 和 MultiWoz 对话上实现了更好的实证绩效改进。

子词作为技能：稀疏奖励强化学习的分词器

BriefGPT - AI 论文速递 ·