配置清洗脚本
Setting up ETL Script
清洗脚本是系统提供的在数据同步过程中,用于复杂数据处理场景的工具,清洗脚本需要在字段映射配置中添加高级清洗字段功能一并使用。
关于此功能
我们支持使用java语言编写清洗脚本,通过自定义清洗脚本,您可以实现时间数据格式处理,添加DML标识和简单合并计算数据等功能。
操作步骤
◎ 编写与保存清洗脚本
点击清洗脚本图标按钮,进入清洗脚本编辑弹窗;
使用Java语言编写清洗脚本;
点击存入脚本库,保存已编辑内容。
◎ 样例数据与试运行
样例数据指从数据源中获取后,经系统处理,待写入数据目的地的数据。
样例数据的获取逻辑如下:
首先创建一个并发数为1的独立虚拟业务,(如果是Kafka,则取第一个partition),任务按照全量+增量的同步方式,从表的首行或者第一个partition的earliest作为读取起点,以1000为size大小全量抓取第一个fetch。如果数据充足,大于需要展示的个数,则展示前M个。如果数据不足,则进入增量同步模式,当增量获取数据大于要求展示的个数停止,或者连续20s无新增数据停止,随后按照需要展示所抓取到的数据。
试运行指使用已编辑的清洗脚本测试处理样例数据。
在清洗脚本编辑弹窗,点击获取样例数据,可以根据筛选条件获取当前表的样例数据;
样例数据为Json格式;
点击试运行即使用上方编写好的清洗脚本,对数据进行处理:
清洗后的数据将打印在试运行窗口内;
任务运行过程中,清洗脚本输出的数据会被写入至数据目的地;
我们会根据清洗脚本输出数据中的字段名称与目的地表的字段名称做对比,完全一致的会进行写入;
您可以通过对比样例数据与试运行的输出数据进行对比,判断清洗脚本是否存在处理逻辑错误。
◎ 使用脚本库
脚本库指包含系统预置与用户保存脚本的文件。
点击脚本库按钮进入脚本库选择弹窗;
输入脚本库名称可以搜索脚本库;
选择脚本库列表中的脚本或默认模板中的脚本;
选择完成后脚本将被替换至清洗脚本编辑框;
系统默认模板及使用方法介绍详见清洗脚本配置样例。
清洗脚本处理程序会调用sink端服务器来进行数据计算,根据计算逻辑的复杂程度占用部分服务器资源。
系统中任务运行资源占用模式为争抢模式,清洗脚本的运行同样包含在任务运行的范畴内,资源配置及程序资源使用说明详见数据任务配置-资源组配置。
下一步
选择链路与同步列表数据链路-策略配置最后更新于
这有帮助吗?