数据映射-映射设置

Multiple Data Mapping

映射设置将提供一个默认的规则,默认规则里会分别对表,字段,读取限制,高级清洗进行设置。如果您在使用的时候,需要修改默认规则,您可以对改规则进行配置,选择的表或者新添加的表,都会执行相应的规则,批量的完成映射创建。

关于此功能

映射设置功能包含:

  • 表映射/文件映射

  • 字段映射

  • 读取限制

  • 高级清洗

操作步骤

1.点击映射设置,完成相关规则配置。

  • 表相关设置:

    • 表选择规则

      • 目的地表的创建方式:提供匹配已有表(default),创建新表,匹配优先

      • 选择schema,DB,project等。这里如果注册节点的时候,设置了schema和DB或者project,则默认值为该值,否则为空,需要用户自己选择进行配置。

    • 表名称匹配/新建规则

      • 在源表名的基础上,增加前缀,后缀,或者替换字段。表名的操作后,再根据上一步的建表方式的选择。对于目的地执行相应的操作,如果是匹配已有表,则用拼接好的表名,去目的地库进行全匹配,如果选择新建表则用该字段,去目的地新建表名,如果选择匹配优先,则先尝试匹配,匹配不上则转为创建新表

    • 大小写规则

      • 仅对匹配表生效,如果是创建新表的话,则按照语义映射的逻辑生效进行设置

  • 文件相关设置:

    • 表选择规则

      • 目的地表的创建方式:创建新文件

      • 创建新文件的同时,需要指定文件类型,并对不同的文件类型进行相关设置

    • 文件新建规则

      • 在源表名的基础上,可以根据业务需要增加前缀,后缀,或者替换字段。对表名操作后,再根据文件类型的设置,去目的地创建新表。

  • Hive,Inceptor等有内外表,并且有文件存储要求的表

    • 表选择规则:因为其实质仍然是数据库,因此数据库的选择同RDBMS数据库一致,需要根据业务需要数据库和schema

    • 同时由于其底层是文件存储,因此需要根据实际业务需要对文件相关格式进行设置。

  • Kafka,Sequoia需要设置相应的topic规则和collection规则,目前只支持按照名称匹配,如果需要指定topic,仍然需要手工指定完成

  • 字段相关设置:

    • 字段名称新建规则

      • 注意这里的字段名称和表的新建没有关系,指的是表的字段是由DP负责创建的, 比如kafka这种半结构化数据,我们只是选择topic,每个字段都是DP负责创建的, 就执行该规则

      • 增加前缀,后缀和替换的逻辑同表名的处理逻辑

    • 字段名称匹配规则

      • 这里的字段匹配,是指的同目的表已经存在的字段进行匹配的规则。

      • 增加前缀,后缀和替换的逻辑同表名的处理逻辑

    • 新增字段:

      • 对于新建的表和匹配的表,如果允许,就都可以给表做新增字段的操作。新增字段采取所见即所得的处理策略。不会执行字段前缀,后缀,替换的规则。

    • 大小写规则

      • 仅对匹配表生效,如果是创建新表的话,则按照语义映射的逻辑生效进行设置

  • 读取限制设置:

    • 读取限制设置,仅针对JDBC的读取方式生效。DP会对于使用JDBC读取方式的数据映射,支持通过设置where条件进行增量读取。

  • 高级清洗设置

    • 如果有一些映射需要执行相同的高级清洗脚本,比如增加字段,并且对字段进行统一逻辑的赋值,则可以通过高级清洗进行批量设置,也可以在设置的时候,直接进行编辑。

2.在完成规则的设置后,您有以下几种方式对表进行批量设置

  • 选表,由于这次我们可以对规则进行设置,因此在选表完成的时候,就会自动按照规则,执行相应的设置。

  • 在数据链路中,勾选中映射,可以看到对于该映射可以执行的批量操作,包括,表/文件,字段,读取限制,高级清洗,删除,增加前缀,增加后缀,删除目的地映射8种批量操作。

    • 表/文件,执行后,会按照表相关设置的规则,将对表做的匹配,通常表如果更换了,字段也会不一样,因此执行表规则的时候,默认会把字段规则也执行。

    • 字段,执行后,会以现在匹配或者新建的表为基础,对字段进行匹配或者新建,注意执行字段匹配时,需要保存数据映射。

    • 如果需要重复执行规则时,只需要选择相应的映射,执行规则即可

    • 读取限制,执行后,这是对源表的读取限制的操作,仅当读取方式是JDBC的时候才生效

    • 高级清洗,执行后,会批量的开启高级清洗,并且显示选择的高级清洗脚本

    • 删除,执行后,会批量的删除该映射

    • 增加前缀,执行后,会批量的弹出增加前缀的框,可以批量对选中的表增加前缀

    • 增加后缀,执行后,会批量的弹出增加前缀的框,可以批量对选中的表增加前缀

    • 删除目的地映射,执行后,会批量的弹删除目的地表的映射,不删除源表。方便用户重新执行规则,而不用再次重新选择源表。

3.在执行完成后,会在右上角弹出执行结果,您可以通过点击查看详情,查看本次批量执行的结果。

4.最后,在数据链路中,我们考虑到数据链路承载着整个产品最为重要的部分。因此这里的正确性异常关键。因此我们在这里增加了两个检查机制。用红色和黄色的叹号进行展示。

  • 第一种检查机制,是对链路进行相关的检查。

    • 检查内容包含错误和警告项:

      • 错误的检查内容:目的地的表一个字段都没有选中;同名表

      • 警告的检查内容:表的状态为为创建

  • 第二种检查机制,对批量执行结果的检查

    • 警告:批量执行后,部分匹配,选择匹配已有表,但是匹配失败的时候

    • 如果有错误,则该链路不能保存,如果有警告链路可以保存,并且保存后,警告消失,下次将不会在展示这些警告。

\

最后更新于

这有帮助吗?