首页 > 其他 > 详细

hadoop初学(一)

时间:2016-03-24 06:31:10      阅读:199      评论:0      收藏:0      [点我收藏+]

最近项目研究大数据,即开始研究hadoop,主要参考以下几篇文章:

1.微信一篇hadoop的配置文章,我用的是mac,因此是一个all in one的配置,既不是分布式,也不是伪分布式,这点需要改进和学习

2.了解hadoop的map和reduce的过程

3.运行wordcount,先是用自带的统计英文,在研究通过一个java开源类库,分词统计中文文章,但目前还不准确

 

一些命令:

bin/hadoop fs -put file/myTest*.txt hdfsInput

bin/hadoop jar ~/Coding/Java/GitProjects/chinese-word-count/target/chinese-word-count-1.0.0.jar hdfsInput hdfsOutput

 

 

分词插件IKAnalyzer简介:

http://lxw1234.com/archives/2015/07/422.htm

 

wordcount英文统计分词版(自带):

http://www.cnblogs.com/madyina/p/3708153.html

 

wordcount中文分词版:

http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html

 

wordcount词频改进降序

http://blog.csdn.net/xw13106209/article/details/6122719

 

hadoop初学(一)

原文:http://www.cnblogs.com/liushanping/p/5313920.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!