本研究提出了新的评估指标PROM和基准TSMD-Bench,解决了时间序列模式发现中的定量评估不足,帮助理解不同方法的相对性能。
大型语言模型(LLM)排行榜的相对性能对细节非常敏感,微小扰动可导致排名变化高达8个位置。建议使用混合评分方法进行答案选择,强调依赖简单基准评估的风险,规划更健壮的评估方案。
完成下面两步后,将自动完成登录并继续当前操作。