1、自动的进行磁盘数据和内存之间的无缝切换
2、基于lineage的高效容错,第n个出错,会从第n-1个开始执行
3、task失败会进行特定次数的重试
4、stage失败会自动进行特定次数的重试,并且只运行计算失败的数据分片
5、checkpoint(类似单机游戏里的存档)和presist,持久化cache
6、数据调度弹性,DAG TASK与资源管理无关
7、数据分片的高度弹性,repartition,1W个大的,变成10W个小的, 10W个小的变成1W个大的。
原文:http://www.cnblogs.com/kabka/p/5419227.html