特征工程（一）

时间：2020-06-11 00:34:12 阅读：43 评论：0 收藏：0 [点我收藏+]

特征工程

方差过滤

概念：将不太相关的特征筛选出来

方式一:
#只针对特征进行处理，不涉及标签
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
x_var = selector.fit_transform(x)
x_var.shape

技术分享图片

方式二:
直接使用方差中位数进行删除
import numpy as np
np.median(x.var())#查看方差中位数
x_fsvar = VarianceThreshold(np.median(x.var())).fit_transform(x)
x_fsvar.shape#查看特征

技术分享图片

卡方过滤

概述：查看方差过滤后特征与标签的关联度

from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest#排序
from sklearn.feature_selection import chi2#卡方过滤工具
x_fschi = SelectKBest(chi2,k=300).fit_transform(x_var0,y)
x_fschi.shape

技术分享图片

F检验

清除pvalue_f>0.05，特征与标签关联不大的特征，保留pvalue_f<0.05的特征

from sklearn.feature_selection import f_classif
F ,pvalue_f = f_class(x_var0,y)

技术分享图片

特征工程（一）

原文：https://www.cnblogs.com/zhaoxiaoxian/p/13089848.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)