BriefGPT - AI 论文速递 ·

MentalQA：一个用于心理保健问题和回答的阿拉伯语语料库

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了多个与心理健康和语言处理相关的数据集，包括PsyQA、ARCD和ArabicaQA。这些数据集支持心理健康问答、阿拉伯语阅读理解及多语言问答研究，展示了各自领域的有效性和进展。

🎯

关键要点

PsyQA 数据集包含 2.2 万个问题和 5.6 万个答案，基于心理咨询理论进行标注，展示了心理健康支持的有效性。
ARCD 数据集使用维基百科作为知识来源，构建了 SOQAL 系统，实验结果表明其在阿拉伯语阅读理解中的有效性。
通过对精神障碍论坛帖子进行概括，获得了一个低偏差的问答数据集，BioBERT 模型在心理障碍领域表现优于现有模型。
emrQA 数据集利用 i2b2 数据集的专家注释，生成了大规模的电子医疗记录问答数据集，探索了其学习潜力。
UQA 数据集用于乌尔都语问答和文本理解，展示了 EATS 技术在创建高质量数据集方面的效果。
ArabicaQA 是第一个用于阿拉伯语机器阅读理解的大规模数据集，包含 89095 个可回答的问题，推动了阿拉伯语自然语言处理的发展。
MLQA 是一个多语言提取式问答评估基准，包含 7 种语言的 QA 实例，旨在推动跨语言 QA 研究。
FrenchMedMCQA 是用于医学领域的首个公开多项选择问答数据集，包含 3105 个问题，提供基线模型以处理此任务。

❓

延伸问答

PsyQA 数据集的主要内容是什么？

PsyQA 数据集包含 2.2 万个问题和 5.6 万个答案，基于心理咨询理论进行标注，旨在支持心理健康问题的回答。

ARCD 数据集是如何构建的？

ARCD 数据集使用维基百科作为知识来源，构建了 SOQAL 系统来回答阿拉伯语开放领域的问题，实验结果显示其有效性。

BioBERT 模型在心理障碍领域的表现如何？

BioBERT 模型在心理障碍领域的细调获得了 0.885 的 F1 得分，表现优于现有模型。

emrQA 数据集的特点是什么？

emrQA 数据集利用 i2b2 数据集的专家注释，生成了包含 100 万个问题的电子医疗记录问答数据集，探索其学习潜力。

ArabicaQA 数据集的规模和内容是什么？

ArabicaQA 是第一个用于阿拉伯语机器阅读理解的大规模数据集，包含 89095 个可回答的问题和 3701 个无法回答的问题。

MLQA 数据集的目的是什么？

MLQA 数据集旨在推动跨语言问答研究，包含 7 种语言的 QA 实例，并使用对齐上下文策略构建。

🏷️

标签

心理健康数据集语料库语言处理问答阿拉伯语

➡️

继续阅读

法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
美容新靶点：皮肤神经里的谷氨酸竟是胶原蛋白总开关
年纪越大脸越垮？别急着怪地心引力，可能是你皮肤里的“神经电线”集体下岗了。这项发在顶级期刊《Cell》上的研究，直接掀了抗衰老行业的桌子：原来控制你胶...
VoyraCloud全线特惠：港日英美住宅IP+多国云VPS，Win系统直降10%
VoyraCloud一周年庆典重磅开启！即日起至7月23日止，全场产品限时直降10%——涵盖中国香港/日本/英 […]
美国AI主管指控Kimi K3通过其内部平台从Fable提取灵感
美国AI主管Michael Kratsios在7月22日发推，声称月之暗面公司从Anthropic的Fable模型中提取了灵感用于开发Kimi K3。为此...
2026 07 23 HackerNews
2026-07-23 Hacker News Top Stories # OpenAI与HuggingFace合作应对预发布模型在评估中自主发现...
Simplify AI agent orchestration with Lakebase Postgres
IntroductionTraditionally, auditing is a tedious process that often requires ...