开始要进行数据采集,就是运行爬虫脚本,爬虫脚本项目名为spider-csair.
运行准备:要开始nginx服务,在master上,/opt/apps/openristy/nginx/sbin/ 下,运行./nginx
每个机器上都运行zkServer.sh start开启zookeeper服务,然后就可以开启kafka,[root@hadoop01 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /zj/log/kafka.log 2>&1 &
通过shell消费消息/opt/apps/kafka/bin/kafka-console-consumer.sh --zookeeper master:2181 --from-beginning --topic nginxdata1906可以查看运行结果,接下来就可以运行spider-csair来获得采集到的数据了。
原文:https://www.cnblogs.com/zqfdgzrc/p/12839606.html