在探讨今天的主题——如何利用各类资源学习Hadoop知识——之前,让我们首先搞清楚另一个问题:大数据Hadoop到底是什么?简单来讲,Hadoop是一套用于实现大数据技术的框架方案。为了顺利掌握Hadoop,大家需要理解两项与文件存储以及数据处理紧密相关的基础知识。在Hadoop当中,我们甚至可以保存比可用存储空间更大的文件。Hadoop提供相关选项,允许大家将大型文件存储在节点之上。很明显,处理规模如此可观的文件绝非儿戏,不过Hadoop能够引入“MapReduce”机制让一切变得更为简单。MapReduce也是一套框架,其主要任务就是实现数据处理。MapReduce能够以迅如闪电的速度完成数据处理任务,从而帮助我们节约大量时间。
实践证明,Hadoop确实拥有重要的实际价值,而这种价值主要体现在由其提供的各类特性当中。Hadoop的显著特性包括以下几点:
目前几乎每一家IT技术巨头企业都在使用Hadoop进行数据管理。在Hadoop使用方面,最值得一提的企业包括Amazon、Adobe、阿里巴巴、Cloudspace、EBay、Facebook、IBM、雅虎以及Twitter等等。
随着Hadoop在应用领域的人气不断攀升,大量令人兴奋的全新发展机遇也由此陆续出现。为了帮助大家成为大数据与Hadoop技术层面的紧俏人才,我们整理出了15种学习Hadoop技术的最佳方式及资源,下面一起来看。
Hadoop文字教程
这份教程能够为大家提供良好的技术指导,而且也用事实验证了自身的出色水平。它针对大数据概念快速理解、Hadoop分布式文件系统以及MapReduce算法提供了简洁易懂的教学方案,能够帮助各位新手轻松掌握Hadoop。这套教程适用于ETL开发人员、软件专家以及分析专业人士。
Core Servlets提供一套清晰易行的Hadoop学习教程。其中每个章节都包含练习内容以及相应的解决方案提示,这样大家就能够在无需求助于他人的前提下自行学习。这份教程同时也非常适用于那些拥有一定Java编程知识的学习者。在认真研读之后,相信大家一定能建立起坚实的Hadoop专业知识基础。
3) Vogella
Vogella提供一系列与Hadoop学习相关的简短教程。作为学习起点,它首先通过概述帮助大家理解Hadoop宏观概念、利用Hadoop能够完成哪些任务并阐述了映射与归约两大基本功能的确切定义。这份教程涵盖了多项基本议题,包括文件系统、映射归约及其安装指南。
4) Guru99
Guru99提供一套基于Hadoop的深层指导方案。它采用大量示例加图表的配合方式,能够帮助大家轻松学习到Hadoop相关知识。可以说,它是我们所见过的最为简单易行的Hadoop学习教程。其中的具体议题则包括技术介绍、安装、映射归约以及由大量代码及注释实现的示例方案。
5) Hortonworks
Hortonworks针对Hadoop提供一系列非常优秀的教程资料。除了常规教程内容之外,它还提供与Hadoop相关的认证机制。这项资质认证能够帮助专业人士开启大数据技术领域的职业生涯。它的涵盖范围很广,但同时又不失深度。
Hadoop视频教程
6) Udemy
Udemy在技术视频教程领域已经拥有相当一段时间的从业经历,而且事实证明其表现算得上可圈可点。它以完整教程的形式对Hadoop认证的各个层面作出了清晰而详尽的解释,从而使学习过程充满乐趣。对于Hadoop毫无概念的新人同样能够在它的帮助下轻松建立并提升自己的Hadoop专业知识。值得一提的是,它甚至能够用轻松易懂的方式阐述MapReduce等相当艰深的概念。
7) Eduonix
这套教程由多位训练有素的专业人员共同打造,力争帮助大家扎实稳健地一步步完成自己的大数据与Hadoop培训之路。其中包含有74次讲座以及长达15.5小时的视频内容。除了清晰阐述各类核心技术概念之外,它还解释了MapReduce等特定定义的具体内容。如果大家有意在Hadoop领域试试身手,那么这套教程无疑应该成为各位的必修课程。
8) Simplilearn
这套教程拥有明确的定义以及理想的结构设置,即使是来自其它行业、毫无技术基础的朋友也能轻松理解。大家还可以选择与Hadoop相关的认证资质,并借此帮助自己从竞争对手当中脱颖而出。这套在线Hadoop培训资源以Hadoop技术简介作为起点,而后解释了相关架构并随进度推移提出更多高级技术概念。
9) Edureka
掌握Hadoop虽然说不上困难无比,但前提是大家需要具备一定程度的Java核心知识。幸运的是,Edureka在《面向Hadoop的Java基础》当中提供丰富的学习资源。为了完成配套习题,大家需要在自己的系统当中安装Edureka虚拟机。如果各位的系统无法满足配置要求,也可以远程访问Edureka集群。这套教程还拥有另一大令人印象深刻的特色,其出色的技术支持团队能够快速解答我们学习过程中遇到的各类难题。
Hadoop论著
10) Eric Sammer撰写的Hadoop Operations
这本书明确阐述了如何建立并维护一套Hadoop集群。它甚至以每分钟为单位进行详尽说明,同时从操作系统层面出发指导大家进行细微调试。另外,它也介绍了大量先进议题,具体包括MapReduce、HDFS架构、YARN执行模式以及集群配置等等。
11) Boris Lublinsky撰写的Professional Hadoop Solutions
这本书以MapReduce编程作为开篇,并通过三个章节以深层方式对这一议题进行了全面探究。而包括Oozie在内的其它议题同样非常重要,其能够以深入浅出的方式帮助我们学会如何开发出一套大规模处理系统。几乎没有几部论著会从Oozie这样具体的议题出发进行学习指导,但这本书做到了——它对Hadoop的各个相关概念都作出了细致阐述。
12) Tom White撰写的Hadoop the Definitive Guide
这本书在Hadoop开发者当中极受欢迎,有些人甚至将其视为Hadoop学习的圣经。不过需要强调的是,它的定位并非完全为了帮助新手学习Hadoop知识。这本书的开篇部分成为理解后续内容的基石,但也需要大家拿出时间和精力好好研讨。不过只要啃下了开头部分,那么在接下来的学习过程中,各位肯定能感受到这部论著的出色之处。
13) Donald Miner与Adam Shook撰写的Map Reduce design pattern
这本书能够帮助大家轻松建立起对各类关键性概念的印象,并提供大量示例以降低理解难度。但需要指出的是,这本书并非为新人所编写,大家至少需要在开始阅读之前对云计算以及Hadoop有所了解。本书还将各类映射归约算法一网打尽,可以说是每一位有理想、有抱负的开发人员不能错过的经典论著。
14) Chuck Lam撰写的Hadoop in Action
这本书以非常简单易行的方式解释了与Hadoop相关的知识要点,即使是刚刚上手的新人也能轻松掌握。本书的前三章涵盖了Hadoop技术的基础性内容,接下来的三章专注于MapReduce算法,而最后则面向五种常见MapReduce技术作出阐释。
这本书的立意在于拨乱反正,帮助大家了解如何避免各类常见编程错误以及如何对这些问题进行排查。这是一部新人在学习过程中不可错过的宝典,因为其中的全部议题皆以简洁易懂的方式进行说明。
随着云计算的迅速崛起以及数据管理资源的严重缺失,我们需要一种新的技术成果解决此类问题,而Hadoop确实能够很好地完成这项历史任务。Hadoop的未来可谓一片光明,而希望借此良机实现职业生涯飞跃的从业者们则应当马上投入学习,并由此踏上另一条不同于以往的发展道路。因此,希望大家能够在了解到这份推荐清单之后从中找到适合自己的学习资源,并在自我提升的道路上高歌猛进。
相信大家在Hadoop学习过程当中,也整理出了自己的一套心得体会。请在评论栏中与大家分享您的真知灼见,我们期待着来自您的更多大数据及Hadoop学习资源推荐。
原文标题:15 Best ways to learn Hadoop Technology
核子可乐译
原文:http://my.oschina.net/u/658658/blog/492215