小红花·文摘

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题

机器之心 ·

Time to Speak Some Dialects, Qwen-TTS!

Blog on Qwen ·

🟦 我的御神签生成器是否勾勒出了语料库的边界？

DEV Community ·

本研究提出了一种新方法ARC-NCA，结合神经细胞自动机与增强隐存记忆，旨在提升人工智能的抽象与推理能力，成本低于ChatGPT 4.5。

ARC-NCA：面向抽象与推理语料库的开发性解决方案

BriefGPT - AI 论文速递 ·

本研究建立了一个包含18.9小时潮州方言的语音语料库，提供了精准标注，促进了自动语音识别与合成的应用。

潮州-野生：首个带有拼音标注的潮州方言语料库

BriefGPT - AI 论文速递 ·

本研究解决了缺乏高质量跨语言新闻文章语料库的问题，提出了20min-XD语料库，涵盖2015至2024年的约15000篇法德文新闻文章对。研究展示了新颖的数据收集与对齐方法，结果表明该语料库在跨语言相似性方面具有广泛的应用潜力，适用于多种自然语言处理任务和语言学研究。

20分钟-XD：瑞士新闻文章的可比较语料库

BriefGPT - AI 论文速递 ·

本研究针对中库尔德语在自然语言处理中的资源不足问题，提出了一种全面的词性标注集，以提升相关任务的表现。该标注集通过整合研究和专家贡献，支持大规模语料库的标注，显著提高了库尔德语处理任务的准确性。

A Comprehensive Part-of-Speech Tagging Standardization for Central Kurdish: A Research Guide for Kurdish Natural Language Processing Tasks

BriefGPT - AI 论文速递 ·

本文研究了新自动化工具在阿拉伯隐喻语料库中的情感分类，填补了阿拉伯隐喻情感分析的空白。采用语义情感标签，评估标准包括F值、召回率和准确率，首次揭示了阿拉伯网络隐喻对情感的影响。

基于语义信息的阿拉伯隐喻情感分类

BriefGPT - AI 论文速递 ·

本研究解决了缺乏开放、大规模、高质量数学预训练语料库的问题，MegaMath提供了3710亿个令牌，成为现有数据集中数量最多、质量最高的，为数学中心的大型语言模型提供了重要支持。

MegaMath: Pushing the Limits of Open Mathematical Corpora

BriefGPT - AI 论文速递 ·

本研究提出了WinoWhat，一个新的语料库，包含WinoGrande验证集的意译，并评估语言模型在五个常识知识类别上的表现。结果显示，所有模型在WinoWhat上的表现远低于预期，表明对WinoGrande的推理能力评估被高估。

WinoWhat：带有常识分类的 paraphrased WinoGrande 句子的平行语料库

BriefGPT - AI 论文速递 ·

本研究通过引入多模态语料库KOM-Euph，整合文本、图像和音频数据，提高了委婉语识别的效率，强调了多模态数据集的重要性，具有实际应用潜力。

Keyword-Oriented Multimodal Modeling for Euphemism Recognition

BriefGPT - AI 论文速递 ·

本研究推出了西班牙最大的公开临床语料库ClinText-SP和先进的临床编码语言模型RigoBERTa Clinical，后者在多个临床NLP基准测试中表现优异，对相关研究和医疗应用具有重要影响。

ClinText-SP and RigoBERTa Clinical: A New Set of Open Resources for Spanish Clinical Natural Language Processing

BriefGPT - AI 论文速递 ·

本研究针对大型文本语料库中识别新兴概念的难题，提出了一种新的方法，通过分析嵌入空间的热图变化，高效准确地检测出新兴概念。研究发现少数党在引入新概念方面更为活跃，且特定概念与参议员的种族、民族和性别身份密切相关。

识别大型语料库中的新兴概念

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将人机协作后编辑与大型语言模型结合，显著提升机器翻译语料库的生成效率和质量，减轻人类注释员的负担。

高效机器翻译语料库生成：结合人工后编辑与大型语言模型

BriefGPT - AI 论文速递 ·

本研究推出了一套1960-1975年间美国南方报纸的历史wire文章大规模数据集，解决了历史数据不足的问题，揭示了南方报纸在历史变革时期传达新闻的独特方式。

南方新闻 wire 语料库：一份关于中世纪 wire 文章的大规模数据集

BriefGPT - AI 论文速递 ·

本研究探讨大语言模型在医疗保健中的应用，识别训练数据、公平性缺口及评估指标的关键问题，并提出改进建议以提升模型的公平性与透明性。

探索大语言模型在医疗保健中的应用：语料库来源、定制策略与评估指标

BriefGPT - AI 论文速递 ·

本研究建立了EuskañolDS语料库，解决了巴斯克语与西班牙语之间代码切换的数据不足问题，为理解和生成代码切换语言奠定基础。

Eusk~nolDS：一个自然来源的巴斯克-西班牙语代码切换语料库

BriefGPT - AI 论文速递 ·

本研究针对许多非洲语言资源不足的问题，提出了通过开发Kidaw'ida、Kalenjin和Dholuo三种肯尼亚语言的语言语料库来促进自然语言处理和语言研究的创新方法。研究发现，这些开放获取的语料库不仅填补了资源空白，还为当地社区量身定制的自然语言处理应用提供了支持，从而推动了语言多样性和数字转型。

构建低资源非洲语言语料库：Kidawida、Kalenjin和Dholuo的案例研究

BriefGPT - AI 论文速递 ·

本研究解决了当前检索增强生成（RAG）方法在视频信息利用方面的不足，提出了一种新框架VideoRAG，能够根据查询动态检索相关视频，并在生成过程中结合视觉和文本信息。实验结果表明，VideoRAG在有效性上优于现有的基准方法，推动了多模态知识的利用和发展。

视频检索增强生成：针对视频语料库的研究

BriefGPT - AI 论文速递 ·

本研究解决了HotFlip方法在语料库污染攻击中的低效率问题，优化其对抗生成过程，从而将文档处理时间从4小时减少到15分钟。新方法还扩展了对迁移黑箱攻击和无查询攻击的实验分析，显著提高了HotFlip在密集检索系统中的攻击效果，同时揭示了在注入对抗性段落的数量与攻击性能之间的相关性。

在密集检索中重现HotFlip进行语料库污染攻击

BriefGPT - AI 论文速递 ·