type
status
date
slug
summary
tags
category
icon
password
Property
k 折交叉验证不适用于评估不平衡的分类器
k 折交叉验证把数据被分成k -folds,具有均匀的概率分布。这对于具有平衡类分布的数据可能工作得很好,但是当分布严重偏斜时,很可能一个或多个fold将很少或没有来自少数类的示例。
解决方案是在使用 k 折交叉验证或训练测试拆分时不要随机拆分数据。
具体来说,我们可以随机拆分数据集,但是在每个子集中保持相同的类分布。这称为分层或分层抽样,目标变量 ( y ),即类别,用于控制抽样过程。
例如可以使用一个版本的 k-fold 交叉验证来保留每个折叠中不平衡的类分布。它被称为分层 k 折交叉验证,它将在数据的每个拆分中强制执行类分布以匹配完整训练数据集中的分布
我们可以使用支持分层 k 折交叉验证的
StratifiedKFold
类对拆分进行分层