1、下载DataX源码
地址为https://github.com/alibaba/DataX.git
2、通过maven打包:
在DataX根目录执行打包命令
mvn -U clean package assembly:assembly -Dmaven.test.skip=true
打包成功,日志显示如下:
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 01:39 h
[INFO] Finished at: 2026-06-03T12:34:15+08:00
[INFO] ------------------------------------------------------------------------

3、DataX目录
打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

4、配置示例:从stream读取数据并打印到控制台
1)第一步、创建作业的配置文件(json格式)
可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER},这里执行命令
python datax.py -r streamreader -w streamwriter

2)根据模板配置json如下:
将stream2stream.json文件放到job目录下,内容如下:
{"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}} }
3)运行job
执行命令
chcp 65001
python bin/datax.py ./job/stream2stream.json

出现乱码。
4)解决乱码
执行命令 chcp 65001后显示正常,如果不想每次都输 chcp 65001,可以写个批处理。
chcp 65001
python bin/datax.py ./job/stream2stream.json

done!!!
下一篇文章将讲解DataX-Web安装部署。

