配置Hive、Inceptor数据节点表映射

配置Hive、Inceptor节点表映射是在界面中建立数据源表层级结构与数据目的地表层级结构的映射关系,建立表层级结构映射关系后,才能对其中具体数据内容、数据字段映射进行配置,以完成映射配置。

关于此功能

Hive、Inceptor数据节点作为源节点时,DataPipeline支持支持单值分区表、范围分区、分桶表的同步,单值分区表的分区键在Hive、Inceptor节点配置中完成。

Hive、Inceptor数据节点作为目的地节点时,Hive、Inceptor文件写入方式支持写入到目的地的CSV、Parquet、Avro、ORC类型文件,并且支持新建外部表、单值分区表、范围分区表。JDBC写入方式支持将源端数据写入目的地端的ORC类型文件,并且支持新建外部表、单值分区表、范围分区表、分桶表以及事务ORC表。

操作步骤

  1. 点击表映射按钮,切换至表映射Tab。

  2. 点击数据源按钮,切换至您需要配置的Hive、Inceptor数据目的地。

  3. 点击选择同步列表按钮,选择数据源中您需要同步的表。 选择完成后数据目的地将会展现对应行。

  4. Inceptor数据目的地支持新建表。

    1. 当写入方式为Inceptor文件写入时:

      1. 点击「新建外表」

      2. 选择数据库

      3. 完成「写入设置」

        1. 写入文件路径:必填项,填写相对路径

        2. 表格式定义:

          1. 文件格式:

            1. 选择csv:需要配置编码方式、字段分隔符、行分隔符、转义字符、文本围栏

            2. 选择Parquet:需要选择压缩格式

            3. 选择Avro:需要选择压缩格式

            4. 选择ORC:需要选择压缩格式

        3. 分区定义:Inceptor支持定义(多层)单值分区和(多层)范围分区,Hive支持定义(多层)单值分区。您可以使用系统提供的函数与系统参数组成的表达式或者引用目的地表字段来自定义单值分区键,同时也可以引用目的地端字段名来定义范围分区键。

          1. 分区类型:可选择无、单值分区、范围分区

          2. 单值分区:点击添加,可选择表达式定义和字段定义

            1. 表达式定义:支持利用系统参数以及系统函数来组成表达式定义分区键

            2. 字段定义:支持选择目的地字段定义分区键。

            3. 注意:您需要先创建该表,保存字段映射中的配置,才能选择目的地字段。

          3. 范围分区:

            1. 分区键:支持选择目的地字段定义分区键,可添加多个分区键。

            2. 分区名:必填项,自定义分区名

            3. 分区范围:需要为每个分区键配置每个分区的分区范围,填写范围上限及下限,系统默认包含上限及下限

        4. 分桶设置:

          1. 分桶数目:必填项

          2. 分桶键:支持选择目的地字段定义分桶键。

最后更新于

这有帮助吗?