Setting up ETL Script
清洗脚本是系统提供的在数据同步过程中,用于复杂数据处理场景的工具,清洗脚本需要在字段映射配置中添加高级清洗字段功能一并使用。
我们支持使用java语言编写清洗脚本,通过自定义清洗脚本,您可以实现时间数据格式处理,添加DML标识和简单合并计算数据等功能。
点击清洗脚本图标按钮,进入清洗脚本编辑弹窗;
使用Java语言编写清洗脚本;
点击存入脚本库,保存已编辑内容。
样例数据指从数据源中获取后,经系统处理,待写入数据目的地的数据;试运行指使用已编辑的清洗脚本测试处理样例数据。
在清洗脚本编辑弹窗,点击获取样例数据,可以根据筛选条件获取当前表的样例数据;
样例数据为Json格式;
点击试运行即使用上方编写好的清洗脚本,对数据进行处理:
清洗后的数据将打印在试运行窗口内;
任务运行过程中,清洗脚本输出的数据会被写入至数据目的地;
我们会根据清洗脚本输出数据中的字段名称与目的地表的字段名称做对比,完全一致的会进行写入;
您可以通过对比样例数据与试运行的输出数据进行对比,判断清洗脚本是否存在处理逻辑错误。
脚本库指包含系统预置与用户保存脚本的文件。
点击脚本库按钮进入脚本库选择弹窗;
输入脚本库名称可以搜索脚本库;
选择脚本库列表中的脚本或默认模板中的脚本;
选择完成后脚本将被替换至清洗脚本编辑框;
系统默认模板及使用方法介绍详见清洗脚本配置样例。
清洗脚本处理程序会调用sink端服务器来进行数据计算,根据计算逻辑的复杂程度占用部分服务器资源。
系统中任务运行资源占用模式为争抢模式,清洗脚本的运行同样包含在任务运行的范畴内,资源配置及程序资源使用说明详见数据任务配置-资源组配置。
最后更新于 5年前
这有帮助吗?