Detecting Redundant Health Survey Questions Using Language-Agnostic BERT Sentence Embedding (LaBSE)
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究计算公开健康调查问题之间的语义相似性,以促进基于调查的个人生成健康数据(PGHD)的标准化。构建了包含1758对问题的语义文本相似性数据集,并采用SBERT-LaBSE算法进行比较,显示出其在提高跨语言调查数据语义互操作性方面的潜力。
🎯
关键要点
-
本研究计算公开健康调查问题之间的语义相似性。
-
研究旨在促进基于调查的个人生成健康数据(PGHD)的标准化。
-
构建了一个包含1758对问题的语义文本相似性数据集。
-
采用SBERT-LaBSE算法进行比较,该算法在评估双语问题相似性方面表现最佳。
-
研究显示该算法在提高跨语言调查数据语义互操作性方面具有潜力。
🏷️