数据映射-映射设置
Multiple Data Mapping
映射设置将提供一个默认的规则,默认规则里会分别对表,字段,读取限制,高级清洗进行设置。如果您在使用的时候,需要修改默认规则,您可以对改规则进行配置,选择的表或者新添加的表,都会执行相应的规则,批量的完成映射创建。
关于此功能
映射设置功能包含:
表映射/文件映射
字段映射
读取限制
高级清洗
操作步骤
1.点击映射设置,完成相关规则配置。
表相关设置:
表选择规则
目的地表的创建方式:提供匹配已有表(default),创建新表,匹配优先
选择schema,DB,project等。这里如果注册节点的时候,设置了schema和DB或者project,则默认值为该值,否则为空,需要用户自己选择进行配置。
表名称匹配/新建规则
在源表名的基础上,增加前缀,后缀,或者替换字段。表名的操作后,再根据上一步的建表方式的选择。对于目的地执行相应的操作,如果是匹配已有表,则用拼接好的表名,去目的地库进行全匹配,如果选择新建表则用该字段,去目的地新建表名,如果选择匹配优先,则先尝试匹配,匹配不上则转为创建新表
大小写规则
仅对匹配表生效,如果是创建新表的话,则按照语义映射的逻辑生效进行设置
表相关设置其他约束
对于有些数据库作为目的地时,仅支持创建表或者匹配表,此时就只会有唯一的设置
Schema和DB,默认值为节点注册时所填写的内容。如果没有设置,则默认为空。
对于文件系统,会根据文件系统支持的文件格式进行设置。这里只有被选中的规则,才会被执行。
文件相关设置:
表选择规则
目的地表的创建方式:创建新文件
创建新文件的同时,需要指定文件类型,并对不同的文件类型进行相关设置
文件新建规则
在源表名的基础上,可以根据业务需要增加前缀,后缀,或者替换字段。对表名操作后,再根据文件类型的设置,去目的地创建新表。
Hive,Inceptor等有内外表,并且有文件存储要求的表
表选择规则:因为其实质仍然是数据库,因此数据库的选择同RDBMS数据库一致,需要根据业务需要数据库和schema
同时由于其底层是文件存储,因此需要根据实际业务需要对文件相关格式进行设置。
Kafka,Sequoia需要设置相应的topic规则和collection规则,目前只支持按照名称匹配,如果需要指定topic,仍然需要手工指定完成
字段相关设置:
字段名称新建规则
注意这里的字段名称和表的新建没有关系,指的是表的字段是由DP负责创建的, 比如kafka这种半结构化数据,我们只是选择topic,每个字段都是DP负责创建的, 就执行该规则
增加前缀,后缀和替换的逻辑同表名的处理逻辑
字段名称匹配规则
这里的字段匹配,是指的同目的表已经存在的字段进行匹配的规则。
增加前缀,后缀和替换的逻辑同表名的处理逻辑
新增字段:
对于新建的表和匹配的表,如果允许,就都可以给表做新增字段的操作。新增字段采取所见即所得的处理策略。不会执行字段前缀,后缀,替换的规则。
大小写规则
仅对匹配表生效,如果是创建新表的话,则按照语义映射的逻辑生效进行设置
注意有的数据库,目前DP只支持新建表,有的只支持选择已有表,则相应的可以对字段进行相应的设置。
读取限制设置:
读取限制设置,仅针对JDBC的读取方式生效。DP会对于使用JDBC读取方式的数据映射,支持通过设置where条件进行增量读取。
高级清洗设置
如果有一些映射需要执行相同的高级清洗脚本,比如增加字段,并且对字段进行统一逻辑的赋值,则可以通过高级清洗进行批量设置,也可以在设置的时候,直接进行编辑。
2.在完成规则的设置后,您有以下几种方式对表进行批量设置
选表,由于这次我们可以对规则进行设置,因此在选表完成的时候,就会自动按照规则,执行相应的设置。
在数据链路中,勾选中映射,可以看到对于该映射可以执行的批量操作,包括,表/文件,字段,读取限制,高级清洗,删除,增加前缀,增加后缀,删除目的地映射8种批量操作。
表/文件,执行后,会按照表相关设置的规则,将对表做的匹配,通常表如果更换了,字段也会不一样,因此执行表规则的时候,默认会把字段规则也执行。
字段,执行后,会以现在匹配或者新建的表为基础,对字段进行匹配或者新建,注意执行字段匹配时,需要保存数据映射。
如果需要重复执行规则时,只需要选择相应的映射,执行规则即可
读取限制,执行后,这是对源表的读取限制的操作,仅当读取方式是JDBC的时候才生效
高级清洗,执行后,会批量的开启高级清洗,并且显示选择的高级清洗脚本
删除,执行后,会批量的删除该映射
增加前缀,执行后,会批量的弹出增加前缀的框,可以批量对选中的表增加前缀
增加后缀,执行后,会批量的弹出增加前缀的框,可以批量对选中的表增加前缀
删除目的地映射,执行后,会批量的弹删除目的地表的映射,不删除源表。方便用户重新执行规则,而不用再次重新选择源表。
3.在执行完成后,会在右上角弹出执行结果,您可以通过点击查看详情,查看本次批量执行的结果。
4.最后,在数据链路中,我们考虑到数据链路承载着整个产品最为重要的部分。因此这里的正确性异常关键。因此我们在这里增加了两个检查机制。用红色和黄色的叹号进行展示。
第一种检查机制,是对链路进行相关的检查。
检查内容包含错误和警告项:
错误的检查内容:目的地的表一个字段都没有选中;同名表
警告的检查内容:表的状态为为创建
第二种检查机制,对批量执行结果的检查
警告:批量执行后,部分匹配,选择匹配已有表,但是匹配失败的时候
如果有错误,则该链路不能保存,如果有警告链路可以保存,并且保存后,警告消失,下次将不会在展示这些警告。
\
最后更新于
这有帮助吗?