配置HDFS节点

Basic Configuration of HDFS Data Node

配置要求

在进行配置之前,请务必检查您的HDFS数据节点是否符合平台要求,参考如下:

要求
详情

版本要求

支持2.6.x、2.7.x、3.0.0版本

权限要求

对应目录的读写权限

其他要求

HDFS文件读取方式是通过HDFS客户端进行文件读取,该读取模式支持读取 CSV、PARQUET、Avro 类型文件的定时全量读取。

HDFS文件写入方式是通过HDFS客户端进行文件写入,该写入模式支持将源端数据写入HDFS目的地端的CSV、PARQUET、Avro 类型文件,并且支持写入动态文件目录。

操作步骤

1.用户点击「添加数据节点」按钮,弹出添加数据节点弹窗,填写名称、描述后选择节点类型为HDFS,点击「保存」,跳转到节点详情页。

  • 名称:必填项,最多可填50个字符,节点名称是该节点在系统的唯一标识。

  • 描述:非必填项,无字符长度限制,用户可自定义内容来描述和区分节点。

  • 类型:下拉列表,可选MySQL、Oracle、MS SQL Server、PostgreSQL、TiDB、Kafka、Redis、SequoiaDB、Greenplum、Amazon Redshift、IBM Db2、FTP、HDFS

2.补充HDFS客户端连接配置信息并保存

  • HDFS配置:可上传多个文件,上传多个文件时,从上到下按时间排序显示,同名文件夹不覆盖 最新上传的配置文件中的配置会覆盖之前上传过的配置文件中的配置 需要上传 core-site.xml、hdfs-site.xml文件。请参考官方说明: http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/ClusterSetup.html

  • 根目录:请输入绝对路径

  • 认证方式:必选项,选项:无、LDAP、kerberos

    • 选择LDAP: 需要配置:密码

    • 选择kerberos:需要配置:krb5.conf、HDFS Principal、HDFS Keytab

3.如果要使用HDFS作为数据源,需要补充HDFS源文件配置

  • 自定义参数:自定义参数可以用于自定义 HDFS数据源文件目录以及文件名,您可以通过表达式以及外部赋值的方式来定义参数,在文件名里引用参数需要用 "[$""]" 将参数转义。例如:参数名为 time 的参数在被引用时写作 [$time]。

  • 参数名称:限制50个字符长度;

  • 类型:可选数字、时间

  • 参数定义:可选表达式定义、外部赋值

    • 点击「表达式定义」,

      • 当类型选择为数字时:

        • 弹窗配置项:数字格式、自增规律

        • 数字格式:支持用Java数字格式化的方式定义数字格式,常见的格式如: 1.%d表示实际长度的十进制整型数据 2.%04d表示在前面补0的至少四位的十进制整型数据,如:0001、0002、0003...

        • 自增规律选项:自增1、请输入表达式(该选项暂时不支持)

      • 当类型选择为时间时:

        • 弹窗配置项:日期格式、自增规律

        • 日期格式:请用ISO 8601表示法输入日期格式,如yyyy-MM-dd 注意:支持用yyyy表示年份,MM表示月份,dd表示天,HH表示时,mm表示分,ss表示秒。中间允许使用’-‘以及来分隔,如:yyyy-MM-dd-HH-mm-ss。 不支持冒号':'、空格' '、斜线'/'、反斜线'\'

    • 点击「外部赋值」:

      • 弹窗可切换tab:接口赋值、数据库赋值

        • 点击「接口赋值」: 配置项为接口赋值,支持填写URL进行接口赋值;

        • 点击「数据库赋值」: 配置项为选择节点、选表、选择字段;

          • 点击选择节点,可选择系统内已存在的节点或者新建节点,但仅允许选择一个节点; 点击选表,仅允许选择一张表; 点击选择字段,仅允许选择一个字段;

  • 添加同步文件:

    • 同步文件路径:输入包含子目录的文件名(如/data/[$time]/file_name)

    • 文件类型:可选csv、json 文件配置

      • 当文件类型选择为csv时:

        • 编码方式:请输入合法文件编码的规范名称,如UTF-8

        • 字段分隔符:可选分号、逗号、列表、空格、双引号、Custom ANSI、Custom UTF8

        • 行分隔符:可选标准EOL,Custom String

        • 忽略的行数:输入忽略文件头的行数,在读取时将会忽略该几行数据

        • 文件尾:输入忽略文件尾的行数,在读取时将会忽略该几行数据

      • 当文件类型为json时:

        • 编码方式:输入合法文件编码的规范名称,如UTF-8

最后更新于

这有帮助吗?