本研究探讨了计算社会科学中的噪声问题,分析了OCR错误、古老语言和主观任务注释不一致等多种噪声形式。研究指出某些噪声可能蕴含有价值的信息,并强调处理噪声时的细微差别及研究者所需的策略。
本研究提出了CoAM语料库,包含1300句,旨在解决多词表达识别中的注释不一致和规模有限的问题。实验结果表明,经过微调的大型语言模型在多词表达识别方面优于现有方法,尤其在动词多词表达识别上表现更佳。
完成下面两步后,将自动完成登录并继续当前操作。