GridSearchCV
只返回每个参数化的得分,我想看到的ROC曲线,以及更好地了解结果。 为了做到这一点,我想借此从表现最好的模型GridSearchCV
和繁殖这些相同的结果,但缓存的概率。 这里是我的代码
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
from sklearn.pipeline import Pipeline
from tqdm import tqdm
import warnings
warnings.simplefilter("ignore")
data = make_classification(n_samples=100, n_features=20, n_classes=2,
random_state=1, class_sep=0.1)
X, y = data
small_pipe = Pipeline([
('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100))),
('clf', LogisticRegression())
])
params = {
'clf__class_weight': ['balanced'],
'clf__penalty' : ['l1', 'l2'],
'clf__C' : [0.1, 0.5, 1.0],
'rfs__max_features': [3, 5, 10]
}
key_feats = ['mean_train_score', 'mean_test_score', 'param_clf__C',
'param_clf__penalty', 'param_rfs__max_features']
skf = StratifiedKFold(n_splits=5, random_state=0)
all_results = list()
for _ in tqdm(range(25)):
gs = GridSearchCV(small_pipe, param_grid=params, scoring='roc_auc', cv=skf, n_jobs=-1);
gs.fit(X, y);
results = pd.DataFrame(gs.cv_results_)[key_feats]
all_results.append(results)
param_group = ['param_clf__C', 'param_clf__penalty', 'param_rfs__max_features']
all_results_df = pd.concat(all_results)
all_results_df.groupby(param_group).agg(['mean', 'std']
).sort_values(('mean_test_score', 'mean'), ascending=False).head(20)
这是我尝试在重放结果
small_pipe_w_params = Pipeline([
('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100), max_features=3)),
('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=0.1))
])
skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()
for _ in range(25):
scores = list()
for train, test in skf.split(X, y):
small_pipe_w_params.fit(X[train, :], y[train])
probas = small_pipe_w_params.predict_proba(X[test, :])[:, 1]
# cache probas here to build an Roc w/ conf interval later
scores.append(roc_auc_score(y[test], probas))
all_scores.extend(scores)
print('mean: {:<1.3f}, std: {:<1.3f}'.format(np.mean(all_scores), np.std(all_scores)))
我正在上面多次的结果似乎不稳定。 我创建了一个具有挑战性的数据集作为我自己的数据集同样是努力地学习。 该GROUPBY是为了充分利用所有的迭代GridSearchCV
平均性病火车和考试成绩稳定的结果。 然后,我挑选出效果最佳的模型(C = 0.1,罚分= L2和max_features在我最近的模型= 3),并尝试当我把这些PARAMS在刻意重现这些相同的结果。
该GridSearchCV
模型产生了0.63的均值和0.042 STD鹏得分,而我自己的实现得到0.59的平均值和STD 0.131 ROC。 网格搜索分数相当好。 如果我跑这个实验了100次迭代都GSCV和我自己的,结果是相似的。
为什么这些结果不一样呢? 他们都在内部使用StratifiedKFold()
当CV整数供应......也许GridSearchCV
权重分值由折叠的大小? 我没把握,它将使意义,但。 是我实现有缺陷?
编辑: random_state
加入SKFold