Scikit-learn之特征抽取

时间：2019-07-11 00:37:57 阅读：98 评论：0 收藏：0 [点我收藏+]

一.安装包

pip install Scikit-learn

二.字典特征抽取

　　1.字典特征抽取

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#author tom

from sklearn.feature_extraction import DictVectorizer

l=[
    {‘city‘:‘北京‘,‘temparatue‘:20},
    {‘city‘:‘深圳‘,‘temparatue‘:40},
    {‘city‘:‘广州‘,‘temparatue‘:60},
]

def dictvec():
    """
    字典数据抽取
    :return:
    """
    #实例化对象
    dic=DictVectorizer()
    #调用feature,参数是字典，或者把字典放置于可迭代对象中，比如说列表
    data=dic.fit_transform(l)
    print(dic.get_feature_names())
    print(data)


if __name__ == ‘__main__‘:
    dictvec()

　　结果：(sparse矩阵，这样边读边处理，有助于节约内存)

[‘city=北京‘, ‘city=广州‘, ‘city=深圳‘, ‘temparatue‘]
(0, 0) 1.0
(0, 3) 20.0
(1, 2) 1.0
(1, 3) 40.0
(2, 1) 1.0
(2, 3) 60.0

　　改变一下实话对象的参数（sparse默认为True，我们把他改为False）

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#author tom

from sklearn.feature_extraction import DictVectorizer

l=[
    {‘city‘:‘北京‘,‘temparatue‘:20},
    {‘city‘:‘深圳‘,‘temparatue‘:40},
    {‘city‘:‘广州‘,‘temparatue‘:60},
]

def dictvec():
    """
    字典数据抽取
    :return:
    """
    #实例化对象
    dic=DictVectorizer(sparse=False)
    #调用feature,参数是字典，或者把字典放置于可迭代对象中，比如说列表
    data=dic.fit_transform(l)
    print(dic.get_feature_names())
    print(data)


if __name__ == ‘__main__‘:
    dictvec()

　　结果:（ndaarray或者数组）这个我们成为one-hot编码

[‘city=北京‘, ‘city=广州‘, ‘city=深圳‘, ‘temparatue‘]
[[ 1. 0. 0. 20.]
[ 0. 0. 1. 40.]
[ 0. 1. 0. 60.]]

　　2.关于字典特征抽取总结

```
DictVectorizer.fit_transform(x)
```
- x:字典或者包含字典的迭代器
- 返回值:sparse矩阵
　DictVectorizer.inverse_transform(X)
- X:array数组或者sparse矩阵
- ```
返回值：转换之前的数据格式
```
DictVectorizer.get_feature_names()
- 返回类别特征
DictVectorizer.transform(X)
- 按照原先的标准转换

　　3.作用

把关于分类的特征值进行特征化以区分

三.文本特征抽取

Scikit-learn之特征抽取

原文：https://www.cnblogs.com/tjp40922/p/11167480.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)