BanglishRev:大规模孟加拉语-英语及混合代码电商产品评论数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了BanglishRev数据集,包含174万条孟加拉语与英语混合的电商评论。BanglishBERT模型在二元情感分析中取得94%的准确率和F1分数,验证了数据集的有效性和研究潜力。

🎯

关键要点

  • BanglishRev数据集是迄今为止最大的电商产品评论数据集,包含174万条评论。
  • 评论使用孟加拉语、英语及其混合形式撰写,旨在填补该领域的数据缺口。
  • BanglishBERT模型在二元情感分析中取得94%的准确率和F1分数。
  • 数据集的有效性和潜在研究影响通过情感分析任务得到了验证。
➡️

继续阅读