在使用大型语言模型注释进行BERT分类器训练时的风险

📝

内容提要

本研究探讨了在文本分类中使用大型语言模型生成标签细化小型编码模型的风险,特别是在高风险应用中。通过实证分析,研究揭示了在合成数据训练中性能下降及不稳定性加剧的现象,并提出了基于熵的筛选和集成技术等缓解策略,强调在高风险文本分类任务中需谨慎应用此工作流程。

➡️

继续阅读