小红花·文摘

在金融时间序列分析中，传统的K折交叉验证可能导致数据泄漏，影响模型在实盘中的表现。由于金融数据的序列依赖性和市场结构变化，需采用Walk-Forward和Purged K-Fold等方法进行时间序列切分。本文探讨了交叉验证的误区、标签泄漏的类型及修复方法，并提供了Python实现框架，强调风险提示与适用范围。

【量化交易】Walk-forward 与 Purged CV：时间序列正确切分

土法炼钢兴趣小组的博客 ·

提升超参数调优的7个Scikit-learn技巧

KDnuggets ·

提升时间序列模型性能的五种交叉验证方法

MachineLearningMastery.com ·

避免过拟合、类别不平衡与特征缩放问题：机器学习从业者的笔记本

KDnuggets ·

什么是交叉验证？通俗易懂的图解指南

KDnuggets ·

模型选择对决：选择最佳模型的六个考虑因素

MachineLearningMastery.com ·

优化Scikit-learn交叉验证的七个技巧

MachineLearningMastery.com ·

偏差-方差权衡：视觉解释

MachineLearningMastery.com ·

我在DEV.to的第一篇文章

DEV Community ·

知识网络的韧性

DEV Community ·

交叉验证是评估机器学习模型性能的重要方法，通过将数据分成多个部分进行训练和测试，帮助识别过拟合和欠拟合。常见的技术包括K折交叉验证、分层K折交叉验证和留一交叉验证。交叉验证提高模型的可靠性，优化超参数，确保有效利用所有数据点。

交叉验证完全指南

KDnuggets ·

在数据科学项目中，构建预测模型至关重要。建议包括：1. 选择相关特征，剔除无关数据；2. 清理和准备数据，确保数据质量；3. 探索多种模型和方法；4. 进行交叉验证以评估模型；5. 微调有前景的模型以提升性能；6. 实施持续反馈和再训练机制，以适应市场变化。

提升数据科学中预测模型的6种方法

KDnuggets ·

阅读科技文章如专家般的6项技能

DEV Community ·

避免机器学习项目中常见新手错误的五个建议

MachineLearningMastery.com ·

优化机器学习算法的5个技巧

KDnuggets ·

提高机器学习模型的7种方法

KDnuggets ·

本文提出了一种新方法用于调整岭回归的正则化超参数λ，计算速度快于留一法交叉验证（LOOCV），并在稀疏协变量情况下提供更好的回归参数估计。研究了线性收缩估计器的参数选择，提出数据驱动的交叉验证方法以最小化估计误差，适用于多种协方差矩阵和收缩目标的设计。

快速计算残差 $ k $- 最近邻回归的留一交叉验证

BriefGPT - AI 论文速递 ·

本文探讨了多种交叉验证方法在机器学习中的应用，特别是在心血管疾病分类任务中的评估。研究发现，留源交叉验证提供了更可靠的性能估计，而新提出的 J-K 折交叉验证方法在自然语言处理任务中表现出更少的变异性。此外，嵌套交叉验证在统计效力和置信度方面优于其他方法，适合小数据集使用。

不要浪费时间：早停止交叉验证

BriefGPT - AI 论文速递 ·

本文介绍了R2P方法，通过外生估计算法评估个性化治疗效果，量化不确定性，并优化缺陷组和子组划分。研究了因果效应的异质性及处理效应的差异，提出了新的交叉验证标准和Rashomon集合模型，探索数据生成机制，强调简单模型在复杂数据集上的有效性。研究结果表明，使用dropout技术可以有效减轻预测多样性，并在因果估计中取得改进。

利用罗合分割法鲁棒地估计因子数据的异质性

BriefGPT - AI 论文速递 ·

本文综述了机器学习中模型评估、模型选择和算法选择等三个子任务的不同技术，并讨论了每种技术的主要优缺点，给出了推荐实践建议。重点介绍了常见的模型评估和选择技术，如保留集方法和交叉验证技术，并给出了实用技巧。同时提出了多种算法比较策略，包括 5x2 交叉验证和嵌套交叉验证等，推荐在小数据集情况下使用。

K 折交叉验证是否是机器学习最佳模型选择方法？

BriefGPT - AI 论文速递 ·