首页 > 其他 > 详细

Scikit-learn之特征抽取

时间:2019-07-11 00:37:57      阅读:98      评论:0      收藏:0      [点我收藏+]

一.安装包

pip install Scikit-learn

二.字典特征抽取

  1.字典特征抽取

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#author tom

from sklearn.feature_extraction import DictVectorizer

l=[
    {city:北京,temparatue:20},
    {city:深圳,temparatue:40},
    {city:广州,temparatue:60},
]

def dictvec():
    """
    字典数据抽取
    :return:
    """
    #实例化对象
    dic=DictVectorizer()
    #调用feature,参数是字典,或者把字典放置于可迭代对象中,比如说列表
    data=dic.fit_transform(l)
    print(dic.get_feature_names())
    print(data)


if __name__ == __main__:
    dictvec()

  结果:(sparse矩阵,这样边读边处理,有助于节约内存)

[‘city=北京‘, ‘city=广州‘, ‘city=深圳‘, ‘temparatue‘]
(0, 0) 1.0
(0, 3) 20.0
(1, 2) 1.0
(1, 3) 40.0
(2, 1) 1.0
(2, 3) 60.0

  改变一下实话对象的参数(sparse默认为True,我们把他改为False)

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#author tom

from sklearn.feature_extraction import DictVectorizer

l=[
    {city:北京,temparatue:20},
    {city:深圳,temparatue:40},
    {city:广州,temparatue:60},
]

def dictvec():
    """
    字典数据抽取
    :return:
    """
    #实例化对象
    dic=DictVectorizer(sparse=False)
    #调用feature,参数是字典,或者把字典放置于可迭代对象中,比如说列表
    data=dic.fit_transform(l)
    print(dic.get_feature_names())
    print(data)


if __name__ == __main__:
    dictvec()

  结果:(ndaarray或者数组) 这个我们成为one-hot编码

[‘city=北京‘, ‘city=广州‘, ‘city=深圳‘, ‘temparatue‘]
[[ 1. 0. 0. 20.]
[ 0. 0. 1. 40.]
[ 0. 1. 0. 60.]]

   2.关于字典特征抽取总结

  • DictVectorizer.fit_transform(x)
    • x:字典或者包含字典的迭代器
    • 返回值:sparse矩阵
  •  DictVectorizer.inverse_transform(X)
    • X:array数组或者sparse矩阵
    • 返回值:转换之前的数据格式
  • DictVectorizer.get_feature_names()
    • 返回类别特征
  • DictVectorizer.transform(X)
    • 按照原先的标准转换
       

   3.作用

把关于分类的特征值进行特征化以区分

三.文本特征抽取

 

Scikit-learn之特征抽取

原文:https://www.cnblogs.com/tjp40922/p/11167480.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!