进行数据分析这本书,介绍了大量使用Python进行高效解决各种数据分析问题的Python语言和库,集中总结一下。
- NumPy
NumPy(Numerical Python)是Python科学计算的基础包,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。也就是说,Numpy是一个运行速度非常快的数学库,主要功能包括:
- 快速高效的多维数组对象ndarray
- 用于对数组执行元素级计算以及直接对数组执行数学运算的函数
- 用于读写硬盘上基于数组的数据集的工具
- 线性代数运算、傅里叶变换,以及随机数生成
- 用于将C、C++、Fortran代码集成到python的工具
除了为Python提供快速的数组处理能力,还作为在算法之间传递数据的容器。
- pandas
pandas提供了使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。pandas包含两个主要的数据结构:Series和DataFrame。其中Series是一种类似于一维数组的对象,由一组数据以及一组与之相关的数据标签(即索引)组成。
#pandas Series
import pandas as pd
obj = pd.Series([4, 7, -5, 3])
print (obj)
#输出
0 4
1 7
2 -5
3 3
dtype: int64
matplotlib
绘图是数据分析工作中的重要部分,可以帮助我们找到异常值、必要的数据转换、得出有关模型的Idea等,Python有许多可视化工具,主要介绍matplotlib绘图库。
- SciPy
SciPy(Scientific Python)是开源的Python算法库和数学工具包。SciPy 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算.
- scikit-learn
scikit-learn简称sklearn,是机器学习的一个开源框架、也是一个重要的Python模块,其中包含多种成熟的算法,包括:
- 分类
- 回归
- 聚类(非监督分类)
- 数据降维
- 模型选择
- 数据预处理
利用Python进行数据分析学习笔记
原文:https://www.cnblogs.com/eugene0/p/11041724.html