首页 > 其他 > 详细

如何计划你的prepare(数据分析)

时间:2020-04-27 16:39:01      阅读:65      评论:0      收藏:0      [点我收藏+]

系列文章:

https://preppindata.blogspot.com/p/how-toprep-index.html

如何计划你的prep

 阶段1: 了解你的数据

不了解数据,就没法得到想要的分析结果。对于小型的数据集,可以这么做:

  1. 列,行,交叉表是如何组织结构的
  2. header标题(列名)和fields字段是否是分析时所需要的。
  3. 每个field的数据类型type
  4. 一行数据row代表的意义是什么?比如销售订单表,一行就是一张订单。
  5. 空值,无意义的值。

可以用笔快速画出目录列和value,来方便理解。

 

阶段2 希望得到的结果desired state

大多数分析工具,都要求把数据放到一个单独的表中,所以分析的数据必须集合在一张表内。

同样画图时理解数据的好办法。

 

阶段3 从键盘到desired State

这个阶段不需要电脑,而是你的大脑

在了解原始数据和明确desired State后,下一步就是对数据的规整。clean, pivot, join and aggregate。

列出你需要做的规整,无需太全面,此时还无需建立工作流,而是思考下吗的问题:

Columns
  • 太多,过滤掉无用字段/列。
  • 太少,可能需要其他的数据集。
  • 是否需要变更列/字段的名字。
  • 需要计算?如果需要形成新的列,那么就需要计算。使用准备工具来处理,或分析工具来计算。

Rows

  • Aggregate the data to be less granular.太多?过滤无用的,聚合不是很颗粒的数据。
  • 太少?列转行,转置pivot。或者增加其他数据集(Unioning, 或join)
  • Clean records? Clumped data? 多余的标点符号? 需要处理这些情况,当然也可能在其他阶段处理。
  • 空白值,它的存在是否必要?过滤掉,或者用其他值替代。
 
Multiple data sources
  • Join together to add more columns
  • Union together to add more rows

其他问题:

  • 数据类型变更
  • 重命名字段。

 

阶段4 建立希望的数据集。

With Tableau Prep, you can quickly change the order of the transitions or add forgotten ones to go from the original data to the Desired Stat。

使用Tableau Prep可以把上面的步骤在电脑上实现。从原始数据到输出结果的顺序也可能变化。

 

如何计划你的prepare(数据分析)

原文:https://www.cnblogs.com/chentianwei/p/12787662.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!