配置Hive节点

Basic Configuration of Hive Data Node

配置要求

在进行配置之前,请务必检查您的Hive数据节点是否符合平台要求,参考如下:

要求
详情

版本要求

Hive 2.x.y

权限要求

登录、访问和写入权限

其他要求

Hive文件读取方式通过连接到Metastore读取表结构并通过HDFS客户端读取文件,该读取模式支持CSV、Parquet、Avro、ORC类型文件的定时全量读取以及基于分区的定时增量读取。

Hive文件写入方式通过连接到Metastore写入表结构并通过HDFS客户端进行文件写入,该写入模式支持将源端数据写入HDFS目的地端的CSV、Parquet、Avro、ORC类型文件,并且支持新建外部表、分区表。

JDBC写入方式通过JDBC的方式连接到HiveServer2 进行文件写入,该写入模式支持将源端数据写入目的地端的ORC类型文件,并且支持新建外部表、内部表、分区表、分桶表以及事务ORC表。

操作步骤:

1.用户点击「添加数据节点」按钮,弹出添加数据节点弹窗,填写名称、描述后选择节点类型为Hive,点击「保存」,跳转到节点详情页。

  • 名称:必填项,最多可填50个字符,节点名称是该节点在系统的唯一标识。

  • 描述:非必填项,无字符长度限制, 用户可自定义内容来描述和区分节点。

  • 类型:下拉列表,可选MySQL、Oracle、MS SQL Server、PostgreSQL、TiDB、Kafka、Redis、SequoiaDB、Greenplum、Amazon Redshift、IBM Db2、FTP、HDFS、Hive、Inceptor(TDH-Hive)

2.补充Hive客户端连接配置信息并保存数据

  • 节点版本:支持2.x.y版本HDFS配置:需要上传 core-site.xml、hdfs-site.xml文件。请参考官方说明: http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/ClusterSetup.html

    • 可上传多个文件,上传多个文件时从上到下按时间递增排序显示

    • 最新上传的配置文件中的配置会覆盖之前上传过的配置文件中的配置,同名文件夹不覆盖

  • 数据库:必填项,可以选择用户权限的所有库或者填写连接数据库的名称。

  • 写入根目录:非必填项,需要填写Hive目的地的主路径,要求填写绝对路径

  • HDFS用户名:必填项,HDFS用户名用于读取hive表映射路径下的文件数据,若该用户名无权限访问,则无法读取和写入数据。

  • 认证方式:必选项,选项:无、kerberos

    • 选择kerberos:需要配置:krb5.conf、HDFS Principal、HDFS Keytab

3.如果您想用JDBC的方式写入将数据写入Hive目的地,您需要配置JDBC连接配置

  • 服务器地址:必填项,连接数据源的域名或IP地址

  • 端口:必填项,连接数据源的端口值。

  • 数据库:必填项,可以选择用户权限的所有库或者填写连接数据库的名称。

  • 认证类型:必选项,选项:无LDAP

    • 选择无:需要配置用户名(必填),密码(非必填)

    • 选择LDAP:需要配置用户名(必填),密码(必填)

4.如果您需要通过增量同步方式同步分区或者范围同步方式同步部分分区,您需要配置数据源读取配置,否则,系统将无法识别分区。点击分区表后的分区设置,配置单值分区键的格式。

  • 数字格式:支持用Java数字格式化的方式定义,常见的格式如:

    • %d表示实际长度的十进制整型数据

    • %04d表示在前面补0的至少四位的十进制整型数据,如:0001、0002、0003...

  • 时间格式:支持用yyyy表示年份,MM表示月份,dd表示天,HH表示时,mm表示分,ss表示秒。中间允许使用’-‘以及来分隔,如:yyyy-MM-dd-HH-mm-ss。不支持冒号':'、空格' '、斜线'/'、反斜线’\’

  • 暂不支持String类型分区的增量同步及范围同步。

最后更新于

这有帮助吗?