本文探讨了五种常用的异常值检测方法在葡萄酒数据集上的表现。实验表明,不同方法的结果一致性较差,且对“异常”的定义各异。作者建议在选择检测方法时,明确目标并结合多种方法,以提高检测的可靠性。同时,异常值不一定要删除,应结合领域知识进行判断。
WineSensed是一个大型多模态葡萄酒数据集,包括897k张葡萄酒标签图片和824k条葡萄酒评论。数据集涵盖超过350k个唯一年份的葡萄酒,包含了年份、产区、评分、酒精含量、价格和葡萄组成等注释信息。研究通过葡萄酒品尝实验和口感排名,获得了5000多个成对的口感距离。作者提出了一种低维概念嵌入算法,证明了该算法在粗粒度口感分类方面具有改进效果,并与人类口感知觉相一致。
完成下面两步后,将自动完成登录并继续当前操作。