Hadoop是一个能够对大量数据进行分布式处理的软件框架,当下企业越来越流行,程序员必会的,掌握的一门技术。。。
首先,我们来聊一聊什么是hadoop吧,相信现在的程序员对这个并不陌生,hadoop又名大数据处理,或者分布式文件存储和计算系统。不多说别的,举一例,大家都用过网盘吧,比如现在火热的百度网盘,现在百度都给大家免费的分配2T的网盘空间了,2048个G啊,还是不小的空间了吧,想必一般人的电脑都没有达到2T的硬盘存储空间了吧,那么百度是怎么做到敢给每个人分配2T的硬盘空间呢,这当然还是归功于hadoop的集群服务器的搭建。那么百度是哪里来的那么多的硬盘空间来给大家两个T的存储空间呢???
首先,给每个人分配了两个T的存储空间,并不是就将一个2T的硬盘放在了服务器架子上写上你的名字等着你去上传文件给你来存储。而是将许多个硬盘放在服务器架子上,给你每个人分配了2T的空间,你每个人也不一定用得了2T吧,所以聪明的工程师就利用hadoop集群来为每个人动态的分配存储空间,每个人给你指定了你可以上传的资料达到2T,如果服务器的硬盘不够了,那就再多增加几台服务器,然后搭进hadoop集群就好了。
好了,现在给每个用户动态的分配了两个T的空间,每个人都可以上传资料去自己的网盘了,那么每个人都上传资料这也没问题,如果好多人上传的是同一份资料呢,那就太占用服务器的硬盘资源了,硬盘资源还是很宝贵的。那么怎么解决同样的文件上传的问题呢?聪明的工程师又想到了一个新的办法,那就是在你上传文件的时候进行文件检测,检测看看服务器有没有这个文件,使用一个检测方法来检测你要上传的文件再服务器中是否存在,如果存在了,就直接把服务器的那个文件指向你要上传的这个文件,有时候你感觉好几百兆的文件一下子就能上传完了,别高兴太早了,不是你的网速好,只是别人服务器上恰好有一份同样的文件而已罢了。聪明的工程师为上传取了一个好听的名字,叫做秒传。
好了,hadoop的大致工作情况就是这样的。
原文:http://www.cnblogs.com/falllovewithIcecream/p/4488871.html