Pandas的两个主要数据结构是Series
和DataFrame
。
DataFrame
可以理解为一张表,Series
就是其中的一个列。
DataFrame
和Series
在许多操作上是相似的,通常在一个上能做的操作在另一个上也能做,如填充空值和计算平均值。
要创建DataFrame的方法很多,下面的方法使用字典创建DataFrame。
例如,水果订单数据可以表示为字典,每种水果一列,每个顾客一行,如下所示:
data = { ‘apples‘: [3, 2, 0, 1], ‘oranges‘: [0, 3, 7, 2] }
然后将其传递给Pandas DataFrame构造函数:
purchases = pd.DataFrame(data)
purchases
输出
apples oranges 0 3 0 1 2 3 2 0 7 3 1 2
字典中的每个(键、值)项对应于DataFrame中的一列。
DataFrame中默认索引是数字(0~3),我们也可以指定索引。
下面以客户名作为索引:
purchases = pd.DataFrame(data, index=[‘June‘, ‘Robert‘, ‘Lily‘, ‘David‘]) purchases
输出
apples oranges June 3 0 Robert 2 3 Lily 0 7 David 1 2
现在我们可以用客户名来定位订单:
purchases.loc[‘June‘]
输出
apples 3
oranges 0
Name: June, dtype: int64
Python机器学习(八十一)Pandas Series 与 DataFrame
原文:https://www.cnblogs.com/huanghanyu/p/13173984.html