一、什么是datax
datax是阿里巴巴开源的一款离线数据同步工具、通过框架。支持在异构数据源之间同步数据。
使用者可以轻松地的在结构化数据(mysql、sqlserver、oracle...)、非结构化数据(mongo、hive...)、结构与非结构之间同步数据。
二、使用datax
2.1 系统环境
- Linux
- JDK(1.8以上,推荐1.8)
- Python(推荐Python2.6.X)
- Apache Maven 3.x (Compile DataX)
- git
2.2 部署
方法一、直接下载DataX工具包
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
cd {YOUR_DATAX_HOME}/bin python datax.py {YOUR_JOB.json}
自检脚本
python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
正常打印日志,表示datax可以使用
方法二、下载源码,自己编译
1)下载源码(没有git的同学自行百度)
git clone https://github.com/alibaba/DataX.git
2)通过maven打包(没有安装maven的同学自行百度)
cd {DataX_source_code_home} mvn -U clean package assembly:assembly -Dmaven.test.skip=true
参考
1.datax github - https://github.com/alibaba/DataX