标点悬挂是一种排版技术,使标点超出段落边界,提升阅读体验。虽然在西文排版中常见,但中文传统上不常用。CSS 的 hanging-punctuation 属性定义了这一行为,目前仅 Safari 部分支持,其他浏览器尚未实现,期待未来更广泛应用。
本研究提出了一种名为Sadeed的小型语言模型,旨在解决阿拉伯语标点问题。Sadeed通过在高质量数据集上的微调,表现优越,超越传统模型,并引入新的评估基准SadeedDiac-25,推动阿拉伯语自然语言处理的发展。
本研究解决了大型语言模型(LLMs)在上下文信息存储中对某些小型标记(如标点符号、虚词)的低估问题。论文提出了一种新方法,通过分析发现删除这些标记会显著降低模型性能,同时开发了LLM显微镜工具包,以帮助评估标记级别的非线性特征,并可视化中间层的贡献。这一发现强调了这些看似无关的标记在维持上下文理解中的重要性。
本研究解决了语言翻译过程中标点符号特征变化的问题,指出詹姆斯·乔伊斯的《芬尼根的守灵夜》在不同语言间保持了标点特征的高度稳定性。通过分析多种语言的翻译,研究表明该作品的标点分布在统计特征上基本保持不变,进一步确认其作为超语言作品的特征。
本研究解决语音识别文本缺乏标点的问题,影响理解。通过开发标点预测模型,使用HerBERT模型微调,在Poleval 2022任务中取得71.44的加权F1分数,提高文本理解准确性。
本研究解决了标点恢复模型仅在结构良好的脚本语料上评估的问题,并引入了非正式语音源的标点恢复数据集SponSpeech,提高了模型在实际应用中的有效性。
本论文介绍了一种基于预训练掩码语言模型的条件联合建模框架,用于提高医学领域 ASR 系统的识别准确率。实验结果显示,该模型相对于基线模型在字典和会话样式语料库上有5%的绝对改进和10%的ASR输出优化。
最近的研究发展提出了可在GPU上加速的适用于机器学习流程的可微分物理模拟器。这种模拟器可以用于拟合标记点无遮挡运动捕捉数据的反向运动学,并改善了重新投影误差。
非监督学习在预训练模型中起重要作用。最新的大型语言模型在对话能力方面表现出色,但在捕捉句法和语义结构方面有所滞后。研究发现,标点恢复可以提高与结构相关的任务性能,改善结构理解和产生更健壮的自然语言表示。
本文介绍了一个名为 LibriSpeech-PC 的基准测试,用于评估端到端自动语音识别模型在标点和大小写预测方面的能力,同时提出了一种名为 PER 的新型评估指标,专注于标点符号,并提供了初步的基准模型。
本论文介绍了一种基于预训练掩码语言模型的条件联合建模框架,用于提高医学领域ASR系统的识别准确率。通过自适应技术和数据增强方法,该模型在字典和会话样式语料库上相对于基线模型实现了约5%的绝对改进和约10%的ASR输出优化。
完成下面两步后,将自动完成登录并继续当前操作。