首页 > 其他 > 详细

2月4日学习记录

时间:2020-02-05 00:29:09      阅读:60      评论:0      收藏:0      [点我收藏+]

1,背诵单词:elevator:电梯   feature:特征   handsome:英俊的   empire:帝国   mate:伙伴,同事   fiction:小说   lip:嘴唇   election:当选   lifetime:一生,寿命

  govern:统治   expectation:期待   lay:放置   towel:毛巾   transparent:透明的   reality:现实  recognize:认出   temptation:诱惑   typical:典型的   submarine:潜艇

2,学习spark视频:https://www.bilibili.com/video/av62881491      第50到58集

 新添内容到博客:https://www.cnblogs.com/lq13035130506/p/12239342.html 

  2,操作RDD:

    只有到动作类型操作才会进行计算,转换类型操作只会记录

 

    技术分享图片

    技术分享图片

 

     技术分享图片

 

   3,RDD持久化

     每遇到一次动作操作就会从头到尾计算一次RDD,生成一个job;如果需要前一次的动作操作生成的值,则需要将生成的值缓存

    RDD持久化方法:调用.persist()方法对一个RDD标记为持久化,但不会真正持久化;等遇到下一次动作操作就会真正持久化

    技术分享图片会将值存入内存;当内存不足,则替换之前内存存的值 

    RDD.persist(MEMORY_ONLY)<=>RDD.cache()

 

     技术分享图片将值存入内存,当内存不足,会将存不下的值存入磁盘

   4,RDD分区:增加程序的并行度实现分布式的计算;减少通信开销;与hdfs的分块不一样

      分区原则:

      技术分享图片

 

       默认分区命令:如果设置local【n】,则分区为n;Apache  Mesos模式会默认设置分区为8;standalone和yarn模式设置时,当集群中所有CPU数为n;与另一个?(是什么)比较,值最大的设置为分区数

      技术分享图片

      技术分享图片

 

   3,键值对RDD:

      技术分享图片

 

 

3,遇到的问题:学习RDD分区操作,听得不太懂

4,明天计划继续学习Spark和学习爬取动态数据

2月4日学习记录

原文:https://www.cnblogs.com/lq13035130506/p/12261996.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!