小红花·文摘

本文提出了BdSLW401，一个包含401个手势和102,176个视频样本的孟加拉手语数据集，以解决手语识别中的说话者变异和视角变化问题。通过引入相对量化编码（RQE），显著提升了基于变换器的手语识别效果，增强了模型的解释性和识别率。

基于变换器的词级孟加拉手语识别：相对量化编码方法

BriefGPT - AI 论文速递 ·

本研究针对现有子词标记器在词汇量大、适应性差以及对拼写错误敏感等方面的不足，提出了一种分层自回归语言建模架构，结合了字符级和词级处理。研究表明，该方法在参数规模高达70亿的情况下，能与基于子词标记器的模型在下游任务的表现上相媲美，同时显示出更强的对输入扰动的鲁棒性，具备更好的适应性和跨语言的通用性。

分层自回归变换器：结合字节和词级处理以构建强大且可适应的语言模型

BriefGPT - AI 论文速递 ·

本文探讨了利用自然语言处理和机器学习技术建立检测器，以区分机器生成文本与人类书写文本。研究提出了基于信息理论的度量方法，设计了多种检测器，并通过实验验证了其在不同领域的有效性和鲁棒性，显著提高了检测准确率，尤其在大型语言模型生成文本的背景下。

RKadiyala在SemEval-2024任务8中的表现：在部分机器生成文本中的黑箱词级文本边界检测

BriefGPT - AI 论文速递 ·

本文探讨了多语言神经机器翻译中的零样本翻译问题，提出了辅助损失、解码器参数共享和语言特定组件等改进方法。这些方法有效提升了翻译性能，尤其在零样本任务中显著提高了BLEU分数，接近传统方法的效果。

插入、播放和融合：通过词级重排序实现零样本联合解码跨多样词汇

BriefGPT - AI 论文速递 ·

本文研究了自动补全模型，提出了一种新的标准，并发现现有模型性能不足。INarIG模型在单词级自动补全任务中表现优异，尤其在处理低频词时提高了预测准确率。此外，研究展示了基于神经网络的查询自动完成系统，改善了用户搜索体验。

计算辅助翻译中的基于能量的词级自动补全模型

BriefGPT - AI 论文速递 ·

本文探讨了差分隐私在自然语言处理中的应用与挑战，介绍了Truncated Exponential Mechanism和基于Mahalanobis度量的文本扰动方法。研究表明，差分隐私在保护数据隐私的同时能够提高文本分析的效用，并提出了未来的研究方向。

词级度量差分隐私的比较分析：隐私与效用权衡的基准测试

BriefGPT - AI 论文速递 ·

本文提出了一种基于半监督学习的通用语义理解框架，使用预先训练的自动语音识别和自监督语言模型进行微调。实验结果表明，该框架在语义理解方面表现良好，具有环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

将自监督语音模型与基于视觉语音模型的伪词级目标整合

BriefGPT - AI 论文速递 ·

本研究使用Transformer模型和大型语料库提高句法知识表征，通过多任务学习进行数据操纵或使用专用模型组件。结果显示，采用线性树而不是真实依赖的增益并非来自语言知识增加，而是由于自注意矩阵上的简单正则化效应。

理解对资源有限的神经机器翻译中的词级语言标注的影响

BriefGPT - AI 论文速递 ·

本研究提供了一个新的词级孟加拉手语数据集（BdSL40），包含 611 个单词的 40 个视频，以及两种不同的分类方法。研究揭示了 BdSL、西孟加拉手语和印度手语之间的词汇和语义相似性，以及对 BdSL 缺乏词级数据集的情况。数据集和源代码已发布以促进进一步研究。

连接节点：利用时空图神经网络进行准确的孟加拉手语识别

BriefGPT - AI 论文速递 ·

该研究提出了一种新的方法，通过在两个信息层面上对输入进行扰动，生成易于理解的解释，以揭示语音分类模型中每个与单词相关的音频片段对结果的影响。该方法在英语和意大利语的两个语音分类任务上验证，发现解释准确可信，为未来关于解释语音模型的研究铺平了道路。

通过词级音频片段和语言学特征解释语音分类模型

BriefGPT - AI 论文速递 ·