为什么我不能得到相同的结果GridSearchCV?(Why can't I get the

2019-09-28 00:32发布

GridSearchCV只返回每个参数化的得分,我想看到的ROC曲线,以及更好地了解结果。 为了做到这一点,我想借此从表现最好的模型GridSearchCV和繁殖这些相同的结果,但缓存的概率。 这里是我的代码

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
from sklearn.pipeline import Pipeline
from tqdm import tqdm

import warnings
warnings.simplefilter("ignore")

data = make_classification(n_samples=100, n_features=20, n_classes=2, 
                           random_state=1, class_sep=0.1)
X, y = data


small_pipe = Pipeline([
    ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100))), 
    ('clf', LogisticRegression())
])

params = {
    'clf__class_weight': ['balanced'],
    'clf__penalty'     : ['l1', 'l2'],
    'clf__C'           : [0.1, 0.5, 1.0],
    'rfs__max_features': [3, 5, 10]
}
key_feats = ['mean_train_score', 'mean_test_score', 'param_clf__C', 
             'param_clf__penalty', 'param_rfs__max_features']

skf = StratifiedKFold(n_splits=5, random_state=0)

all_results = list()
for _ in tqdm(range(25)):
    gs = GridSearchCV(small_pipe, param_grid=params, scoring='roc_auc', cv=skf, n_jobs=-1);
    gs.fit(X, y);
    results = pd.DataFrame(gs.cv_results_)[key_feats]
    all_results.append(results)


param_group = ['param_clf__C', 'param_clf__penalty', 'param_rfs__max_features']
all_results_df = pd.concat(all_results)
all_results_df.groupby(param_group).agg(['mean', 'std']
                    ).sort_values(('mean_test_score', 'mean'), ascending=False).head(20)

这是我尝试在重放结果

small_pipe_w_params = Pipeline([
    ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100), max_features=3)), 
    ('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=0.1))
])
skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()
for _ in range(25):
    scores = list()
    for train, test in skf.split(X, y):
        small_pipe_w_params.fit(X[train, :], y[train])
        probas = small_pipe_w_params.predict_proba(X[test, :])[:, 1]
        # cache probas here to build an Roc w/ conf interval later
        scores.append(roc_auc_score(y[test], probas))
    all_scores.extend(scores)

print('mean: {:<1.3f}, std: {:<1.3f}'.format(np.mean(all_scores), np.std(all_scores)))

我正在上面多次的结果似乎不稳定。 我创建了一个具有挑战性的数据集作为我自己的数据集同样是努力地学习。 该GROUPBY是为了充分利用所有的迭代GridSearchCV平均性病火车和考试成绩稳定的结果。 然后,我挑选出效果最佳的模型(C = 0.1,罚分= L2和max_features在我最近的模型= 3),并尝试当我把这些PARAMS在刻意重现这些相同的结果。

GridSearchCV模型产生了0.63的均值和0.042 STD鹏得分,而我自己的实现得到0.59的平均值和STD 0.131 ROC。 网格搜索分数相当好。 如果我跑这个实验了100次迭代都GSCV和我自己的,结果是相似的。

为什么这些结果不一样呢? 他们都在内部使用StratifiedKFold()当CV整数供应......也许GridSearchCV权重分值由折叠的大小? 我没把握,它将使意义,但。 是我实现有缺陷?

编辑: random_state加入SKFold

Answer 1:

如果设置了集中的random_state RandomForestClassifier ,不同的变化girdsearchCV将被淘汰。

为了简化起见,我已n_estimators = 10,得到以下结果

                                                             mean_train_score           mean_test_score
param_clf__C    param_clf__penalty  param_ rfs_max_features       mean        std     mean          std         
        1.0      l2                   5 0.766701    0.000000    0.580727    0.0  10 0.768849    0.000000    0.577737    0.0

现在,如果看到在每个分割的性能(通过去除key_feats过滤)最好超参数,用

all_results_df.sort_values(('mean_test_score'), ascending=False).head(1).T

我们将得到

    16
mean_fit_time   0.228381
mean_score_time 0.113187
mean_test_score 0.580727
mean_train_score    0.766701
param_clf__C    1
param_clf__class_weight balanced
param_clf__penalty  l2
param_rfs__max_features 5
params  {'clf__class_weight': 'balanced', 'clf__penalt...
rank_test_score 1
split0_test_score   0.427273
split0_train_score  0.807051
split1_test_score   0.47
split1_train_score  0.791745
split2_test_score   0.54
split2_train_score  0.789243
split3_test_score   0.78
split3_train_score  0.769856
split4_test_score   0.7
split4_train_score  0.67561
std_fit_time    0.00586908
std_score_time  0.00152781
std_test_score  0.13555
std_train_score 0.0470554

让我们重现此!

skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()

scores = []
weights = []


for train, test in skf.split(X, y):
    small_pipe_w_params = Pipeline([
                ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=10, 
                                                               random_state=0),max_features=5)), 
                ('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=1.0,random_state=0))
            ])
    small_pipe_w_params.fit(X[train, :], y[train])
    probas = small_pipe_w_params.predict_proba(X[test, :])
    # cache probas here to build an Roc w/ conf interval later
    scores.append(roc_auc_score(y[test], probas[:,1]))
    weights.append(len(test))

print(scores)
print('mean: {:<1.6f}, std: {:<1.3f}'.format(np.average(scores, axis=0, weights=weights), np.std(scores)))

[0.42727272727272736,0.47,0.54,0.78,0.7]
意思是:0.580727,标准:0.135

注: mean_test_score不仅仅是简单平均,其加权平均。 原因是iid PARAM

从文档 :

IID:布尔值,默认=“警告”如果为True,返回涉及褶皱的平均得分,由样品中的每个测试组的数目进行加权。 在这种情况下,假定数据在整个褶皱被同分布,和最小化的损耗是每样本的总损耗,而不是在整个褶皱的平均损耗。 如果为False,返回涉及褶皱的平均成绩。 默认为真,但会更改为False在0.21版本中,对应于交叉验证的标准定义。

改变在0.20版本:参数IID将真正在0.22版本更改为False默认情况下,将在0.24被删除。



文章来源: Why can't I get the same results as GridSearchCV?