小红花·文摘

本研究提出DCAD-2000方法，将数据清洗重新定义为异常检测任务，显著提升多语言数据集的质量，尤其在识别和去除噪声内容方面表现优异。

DCAD-2000: A Multilingual Dataset for Data Cleaning as Anomaly Detection Across Over 2000 Languages

BriefGPT - AI 论文速递 ·

本研究推出开源工具包Amphion，旨在帮助音频、音乐和语音生成初学者。该工具包引入了100K小时的多语言数据集和新模型，提升了文本转语音、音频编码和语音转换的能力，并提供多个使用教程。

Amphion工具包概述（v0.2）

BriefGPT - AI 论文速递 ·

本研究提出了一种公开的多语言数据集，标注激进化水平、行动召唤和命名实体，旨在解决现有数据集在多语言和多样性处理中的不足。研究分析了注释过程中的偏见及其对模型性能的影响，强调构建稳健数据集的重要性。

Beyond Dataset Creation: A Critical Examination of Annotation Variation and Bias

BriefGPT - AI 论文速递 ·

本研究提出了一种系统方法来验证企业承诺的可信度，解决了承诺验证的复杂性。引入了首个多语言的ML-Promise数据集，以促进对企业在环境、社会和治理（ESG）报告中承诺的深入验证。

ML-Promise: A Multilingual Dataset for Corporate Commitment Verification

BriefGPT - AI 论文速递 ·

本研究指出现有的自动语音识别（ASR）基准未能真实反映对话环境的复杂性，并提出了来自TalkBank的多语言对话数据集。研究表明，主流ASR模型在此环境下性能显著下降，强调建立更真实对话基准的必要性。

ASR Benchmarking: The Need for a More Representative Conversational Dataset

BriefGPT - AI 论文速递 ·

本文介绍了基于CEFR的句子评估语料库和句子级评估模型，解决了级别分布不平衡问题，实验准确率达到84.5%。提出了Language-Model-as-an-Examiner框架，利用指令数据集提升模型性能，并建立了覆盖65种语言的多语言数据集，旨在弥补资源差距。研究还探讨了自动评估方法的可靠性及其在语言学习中的应用。

EvalYaks：用于自动评分 CEFR B2 口语评估文本的指令调优数据集和 LoRA 微调模型

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在提高训练效率和应用中的潜力，特别是通过指令调整和检索增强生成（RAG）方法提升模型性能。研究指出，LLMs在生成人工数据时存在潜在差异，强调遵循道德实践的重要性。此外，建立了覆盖65种语言的多语言数据集，以提升LLMs在医疗和广告等领域的表现。

通过RAG和自我微调生成指令数据集的新管道

BriefGPT - AI 论文速递 ·

本文探讨了跨语言摘要的研究进展，包括多语言数据集的构建、翻译质量对摘要的影响，以及新方法MCLAS和ConvSumX的提出。这些方法在低资源环境下显著提高了摘要生成效果，尤其是利用大型语言模型和零样本学习技术，展示了在多种语言上的优越性能。

跨语言对话语音摘要与大型语言模型

BriefGPT - AI 论文速递 ·

该论文探讨了专家混合模型中的路由策略，提出了任务级路由（task-MoE），在多语言数据集上表现优于传统模型。研究表明，task-MoE能够有效提取小型可部署子网络，保持高性能并提高推理效率。此外，结合知识蒸馏和专家混合模型，开发了模块化的多语言模型，并提供了开源资源以促进社区发展。

LaDiMo：层级蒸馏启发的专家模型转换

BriefGPT - AI 论文速递 ·

本研究介绍了多个多语言数据集，包括MASSIVE、MaSS、MLS和SpeechMatrix，涵盖意图检测、语音识别和翻译等任务。这些数据集为自然语言处理和多语言系统的发展提供了重要资源，推动了相关技术的进步。

语音 - MASSIVE：一个面向 SLU 及更多领域的多语种语音数据集

BriefGPT - AI 论文速递 ·

本文介绍了多种基于大型语言模型的知识图谱补全方法，如MPIKGC、KICGPT和CKGC-CKD。这些方法通过约束型提示、关系感知图神经网络和知识蒸馏机制，提升了知识图谱的补全效果和推理能力，尤其在多语言数据集上表现优异，为知识图谱研究提供了新方向。

预训练语言模型结合知识约束的多语言知识图谱补全

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在文化符号生成和社会偏见识别方面的表现，发现LLM在不同文化生成中存在不平衡，社会人口背景显著影响模型输出。通过评估多种提示策略，提出了改进模型文化一致性和减少偏见的方法，强调多语言预训练数据集的重要性。

文化影响还是安慰剂？关于社会人口统计提示的有效性

BriefGPT - AI 论文速递 ·

该研究构建了多个多语言和对话数据集，以提升大型语言模型（LLMs）的性能。结果显示，高质量数据集的微调显著改善了模型表现，尤其在机器翻译和对话系统中。研究还探讨了提示设计对聊天机器人的影响，强调了多语言模型在翻译中的潜力与局限性。

多语言聊天数据集：Tagengo

BriefGPT - AI 论文速递 ·

本研究通过OpinionsQA数据集探讨大型语言模型（LLMs）与美国人口观点的一致性，发现存在显著不匹配。研究提出了三层次政策框架，旨在个性化对齐以符合人类偏好，并控制潜在风险。同时，分析了性别和种族偏见对模型性能的影响，强调多语言预训练数据集的重要性，以更好地代表人类经验的多样性。

PRISM 对鲍尔语言模型的主观和多元文化对齐的参与式、代表性和个性化人类反馈

BriefGPT - AI 论文速递 ·

本文提出了一种全自动的事实核查框架，结合深度学习和外部数据源来评估信息的真实性。研究表明，使用多语言数据集和多任务学习模型显著提高了事实验证的准确性，并提出了新的纠正方法以应对虚假信息。

训练集以外的事实核查

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）的数据选择和微调方法，提出基于损失的SFT数据选择方法（LoBaSS），在少量数据下显著提升模型能力。稀疏微调方法在指令调整中优于传统方法，数据组成和模型规模对性能影响显著，提出双阶段混合微调策略以解决能力学习问题。此外，构建的开源多语言数据集增强了模型的文化适应性和跨语言转移能力。

小到大 (S2L)：通过总结小模型的训练轨迹，为大型语言模型进行可扩展的数据选择

BriefGPT - AI 论文速递 ·

本研究与全球流利的语言使用者合作，建立了覆盖65种语言的人工策划指令跟随数据集，共包含5.13亿个实例。提供了Aya注释平台、Aya数据集、Aya集合和Aya评估套件等四个关键资源，为未来旨在弥补资源差距的研究合作提供了框架。

Aya 模型：一种指令微调的开放式多语言语言模型

BriefGPT - AI 论文速递 ·

本研究介绍了两个新的多语言数据集，用于文档图像分类任务。研究对文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在局限性。

一个多模态多语言文件图像分类基准

BriefGPT - AI 论文速递 ·

本文介绍了 Gpachov 团队在 CLEF-2023 CheckThat！实验室任务 2 中构建的解决方案，旨在通过主观性检测确保社交网络上信息的客观性和质量。该解决方案采用了微调句子嵌入编码器模型和降维、样本高效少样本学习模型以及多语言数据集上微调多语言转换器等方法，并通过简单多数投票集成的方式融合三种方法，在测试集上达到 0.77 的宏 F1，并在英语子任务上获得第二名。

Gpachov 在 CheckThat！2023 中的新闻文章主观性检测的多元多途径集成

BriefGPT - AI 论文速递 ·