CWRCzech: 1 亿查询文档捷克点击数据集及其在 Web 相关性排名中的应用

📝

内容提要

介绍了 CWRCzech,一种点击网络排名数据集,该数据集包括由 Seznam.cz 搜索引擎日志收集到的相关性排名的捷克语点击数据以及用户行为数据。该数据集是迄今为止最大的包含原始文本的点击数据集,共提供了搜索结果中的文档位置以及用户行为信息:约 2700 万次点击和 1080 万次停留时间。此外,我们还发布了一个人工标注的捷克语相关性任务测试集,包含近 5 万个查询 -...

🏷️

标签

➡️

继续阅读