首页 > 其他 > 详细

hadoop+pig实战

时间：2014-03-18 11:19:46 阅读：365 评论：0 收藏：0 [点我收藏+]

一：hadoop

版本：hadoop-0.20.2.tar.gz

1.部署

1.1把hadoop-0.20.2.tar.gz部署到所有节点，通常部署在相同路径下。在conf/hadoop_env.sh里配置好java home，用bin/hadoop验证。

更好地，编辑/etc/profile，加上下面这些

export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE INPUTRC

export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86_64/jre

export HADOOP_HOME=/usr/local/hadoop

export PIG_HOME=/usr/local/hadoop/pig-0.9.1

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$PIG_HOME/bin

1.2在master端的keygen传到所有节点上。验证：用master ssh所有节点，不用输入密码就能登录。

1.3编辑conf/下的 masters slaves mapred-site.xml core-site.xml和hdfs-site.xml（可选）

masters和slaves分别写入master和slaves的节点ip，一行一个

mapred-site.xml 改成如下

<name>mapred.job.tracker</name>

<value>masterIP:9001</value>

</property>

</configuration>

core-site.xml 改成如下

<name>fs.default.name</name>

<value>hdfs://masterIP:9000</value>

</property>

</configuration>

hdfs-site.xml（可选）改成如下：

<name>dfs.replication<name>

<description>Default block replication<description>

</configuration>

可以看到上面的定义的默认文件副本数是2（<value>2<value>），通常这个值也不会超过3.

把这4个文件复制到其他节点的相同路径下。

2.启动/关闭：bin/start-all.sh bin/stop-all.sh

二：pig（下载pig时注意版本与hadoop版本）

于hadoop相同，解压后修改/etc/profile,

export PIG_HOME=/usr/local/hadoop/pig-0.9.1

export PATH=$PATH:$PIG_HOME/bin

可见，我的pig安装在/usr/local/hadoop/pig-0.9.1目录下的。

在pig/conf/pig.properties最后加上这两句话

mapred.job.tracker=192.168.1.1:9001

fs.default.name=hdfs://192.168.1.1:9000

他们要与hadoop的mapred-site.xml，core-site.xml这两个配置文件内容一致。

好了，试试吧。输入pig看看有没有刚刚配置的那两个变量hdfs和map-reduce job tracker的信息。

`1`	`pig -x` `local`

进入一个外壳程序。

学习Hadoop一般的入门都是Oreilly的《《Hadoop权威指南》》中文版，其中测试MapReduce的第一个程序就是统计一个文本文件中单词出现的次数。Pig是为了简化MapReduce开发的，肯定也是能实现这个的。我以这个为例，写一个测试的例子。

我准备了一个文件，文件名为：nie.txt 里边是一片普通的英文文章，比较长，大约52KB。

我在自己的home下建立了一个workspace的文件夹，我是把它当作开始目录的。（为什么说这个？因为Pig Load数据的时候相对路径的起始文件路径很重要，搞错了就会出现文件找不到的错误。我开始就犯了这个错误）

nie.txt文件的路径为: ～/workspace/nie.txt 而我进入Pig外壳程序的起始路径是：～/workspace/ 下面是我的Pig脚本：

1words = load‘nie.txt‘using PigStorage(‘ ‘) as (line); --以空格作为分隔符把内容分词读入
2grpd = group words by line;     --以每个单词聚类，真实的是一个MapReduce的Map阶段
3cntd = foreach grpd generate group, COUNT(words); -- 这里既上一步Map完成紧接着Reduce阶段进行统计
4dump cntd;  --直接在终端打印结果便于查看

把它保存到workspace命名为test1.txt。我们直接运行

`1`	`pig -x` `localtest1.pig`

大约10多秒中经过大量的输出，最终会得到结果。

01(So,1)
02(We,1)
03(as,7)
04(at,1)
05(be,3)
06(he,2)
07(if,1)
08(in,12)
09(is,10)
10(it,9)
11(no,2)
12(of,21)
13(on,3)
14(or,1)
15(so,1)
16(to,11)
17(us,2)
18(we,1)

前面是单词，后面是计数。当然我的结果很长，已经冲出终端了。

OK，我们的第一个例子已经完美的运行了。下面我解释一下代码。

如上所见，Pig也支持注释的，他的注释方式有2中，

一种是SQL的注释方式，如上面的--， --行后边的内容都会忽略

另一种是Java中的注释方式， /* 注释内容 */ ，它的注释可以一行也可以跨行（Java的程序员是不是很友好？）。

另外Pig Latin[忘了介绍了，Pig的脚本有专业的名字，叫Pig Latin，不知道神码意思]也是用;[分号]换行的，一条语句可以写在一行也可以多行。Pig在运行前会检查Pig Latin，并且对Pig Latin进行编译，用以确定程序逻辑和分析MapReduce。

如果程序有简单逻辑错误，运行前都不会编译通过。如我写的时候把group words by line中的line意识的写成了word，运行时出现了：

12013-04-13 22:21:12,619 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/zhenqin/workspace/pig_1365862872616.log
22013-04-13 22:21:12,713 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop filesystem at: file:///
32013-04-13 22:21:13,225 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1025:
4Invalid field projection. Projected field [word] does not exist inschema: line:bytearray.
5Details at logfile: /home/zhenqin/workspace/pig_1365862872616.log

提示没有定义word，错误是不是也很友好？哈哈。。。

下面我解释一下我出现过的问题。我在起初测试时进入Pig时不是从workspace进入的，我是从pighome，以bin/pig运行的，而我的统计文件存储在～/workspace/下，尽管我在Pig Latin脚本中使用了 load ‘/home/zhenqin/workspace/’或者 load ‘file：///home/zhenqin/workspace/’ 都报错，无法找到文件。为此我纠结了很长时间。

原来Pig的外壳程序Grunt也是有当前路径的。因此可以使用cd 跳转当前路径。

如我从pighome下进入Grunt，执行ls命令出现如下：

01grunt> ls
02file:/opt/pig-0.9.2/testfile:/opt/pig-0.9.2/tutorialfile:/opt/pig-0.9.2/libfile:/opt/pig-0.9.2/ivyfile:/opt/pig-0.9.2/CHANGES.txt87506
03file:/opt/pig-0.9.2/RELEASE_NOTES.txt2224
04file:/opt/pig-0.9.2/LICENSE.txt11358
05file:/opt/pig-0.9.2/conffile:/opt/pig-0.9.2/licensefile:/opt/pig-0.9.2/NOTICE.txt2120
06file:/opt/pig-0.9.2/binfile:/opt/pig-0.9.2/build.xml77427
07file:/opt/pig-0.9.2/pig-0.9.2.jar17585882
08file:/opt/pig-0.9.2/README.txt1307
09file:/opt/pig-0.9.2/ivy.xml13509
10file:/opt/pig-0.9.2/scriptsfile:/opt/pig-0.9.2/pig-0.9.2-withouthadoop.jar6018058

当然上面的ls cd等命令都类似Linux的命名，如：chmod，chown，cp，mkdir，mv，cat，rm[相当于rm -R]等。

它同时也支持Hadoop的一些命名，如：

1copyFromLocal localfile hdfsfile
2copyToLocal   hdfsfile  localfile

在Pig 0.8以上的版本，输入sh 后跟命令，还可以支持原生的Linux命令，如：

1grunt> sh ls-l
2总用量 6
3-rw------- 1 zhenqin zhenqin 52220  2月  3  2012 nie.txt
4-rw-rw-r-- 1 zhenqin zhenqin  2896  4月 13 22:03 pig_1365861790591.log
5-rw-rw-r-- 1 zhenqin zhenqin  2896  4月 13 22:21 pig_1365862872616.log
6-rw-rw-r-- 1 zhenqin zhenqin   443  4月 13 22:21 test1.pig
7-rw-rw-r-- 1 zhenqin zhenqin   210  4月 12 21:35 test2.pig
8-rw-rw-r-- 1 zhenqin zhenqin   245  4月 12 22:40 test3.pig

三：通过hadoop流向hadoop提交map/reduce job。

首先，创建maper和reducer脚本。这里使用的是perl。

cat maper.pl

while ($line = <STDIN>)

{

chomp($line);

($rib,$nquery,@rest) = split (/- /, $line);

my @joined = ($nquery, @rest);

my $results = join("\t", @joined);

print "$results\n";

}

cat reducer.pl

while ($line = <STDIN>)

{

chomp($line);

($nquery,@rest) = split (/ /, $line);

my @joined = ($nquery, @rest);

my $results = join("\t", @joined);

print "$results\n";

}

hadoop jar /usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar -file ./maper.pl -mapper "perl maper.pl" -file ./reducer.pl -reducer "perl reducer.pl" -input /user/root/test/* -output /user/root/output

# hadoop fs -cat /user/root/test/test.txt

- aaaaa 123:123

- ddddd 321:321

# hadoop fs -cat /user/root/output/part-00000

aaaaa 123:123

ddddd 321:321

四：给集群添加数据节点

有的时候， datanode或者tasktracker crash，或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。

1.把新机器的增加到conf/slaves文件中（datanode或者tasktracker crash则可跳过）

2.在新机器上进入hadoop安装目录

$bin/hadoop-daemon.sh start datanode

$bin/hadoop-daemon.sh start tasktracker

3.在namenode上

$bin/hadoop balancer

五：另外几下一些常用命令

解除hdfs安全模式 hadoop dfsadmin -safemode leave

格式化名称节点 hadoop namenode -format(记得要删除dn的/tmp/hadoop-root目录)

本文出自 “DavideyLee” 博客，请务必保留此出处http://davideylee.blog.51cto.com/8703117/1378058

hadoop+pig实战,布布扣,bubuko.com

hadoop+pig实战

原文：http://davideylee.blog.51cto.com/8703117/1378058

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)