2.8.4-RC

What's new

东风何时至,已绿湖上山。DataPipeline在4月迎来了2.8.4版本更新。

在2.8.4版本中,我们新增支持了TDH(星环)大数据平台、GaussDB(Open Gauss)数据目的地、TiDB TiCDC读取模式、Db2数据目的地、PostgreSQL数据目的地;在高级清洗功能中,支持客户使用自有依赖资源进行数据处理;并对数据任务执行配置、数据映射批量操作场景进行了产品优化。

功能更新:

Inceptor数据节点

Inceptor是星环极速大数据平台(Transwarp Data Hub)基于Hadoop和Spark技术平台打造的用于数据仓库和交互式分析的大数据平台软件。在证券相关客户的数仓场景/数据平台场景中,获得了广泛的认可。

在当前版本中,DataPipeline与星环科技达成了产品兼容互认证,全面支持Transwarp Inceptor数据节点。

我们支持Inceptor文件读取方式、Inceptor文件写入方式以及JDBC写入方式来进行Inceptor节点作为源、目的地的同步。

Inceptor文件读取方式通过连接到Metastore读取表结构并通过HDFS客户端读取文件,该读取模式支持CSV、Parquet、Avro、ORC类型文件的定时全量读取以及基于分区的定时增量读取。

Inceptor文件写入方式通过连接到Metastore写入表结构并通过HDFS客户端进行文件写入,该写入模式支持将源端数据写入HDFS目的地端的CSV、Parquet、Avro、ORC类型文件,并且支持新建外部表、单值分区表、范围分区表。

JDBC写入方式通过JDBC的方式连接到HiveServer2 进行文件写入,该写入模式支持将源端数据写入目的地端的CSV、Parquet、Avro、ORC类型文件,并且支持新建外部表、内部表、单值分区表、范围分区表、分桶表以及事务ORC表。

GaussDB(openGauss)数据目的地

openGauss是一款开源关系型数据库管理系统,采用客户端/服务器,单进程/多线程架构,支持单机和一主多备部署方式,备机可读,支持双机高可用和读扩展。

在2.8.4版本中,我们支持通过JDBC的方式向GaussDB写入数据。同时,DataPipeline也与华为进行了鲲鹏服务器兼容性测试,支持将DataPipeline部署至鲲鹏架构服务器,并连接鲲鹏架构GaussDB采集数据。

TiDB TiCDC读取模式

TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,随着数据核心系统国产化浪潮的不断推进,TiDB逐渐受到客户青睐;在之前的版本中,TiDB作为新业务系统数据库通常需要将其他系统的数据导入TiDB,DataPipeline也在众多客户实际场景中较好地支持了TiDB作为数据目的地。

TiDB在客户场景中的使用频率逐步升高,同步以TiDB作为数据库的业务系统的数据的需求也逐渐增多,在2.8.4版本中,我们支持了TiDB作为数据源;同时提供了JDBC连接、TiCDC两种增量数据获取方式。

通过配置TiCDC与DataPipeline TiDB数节点,并在DataPipeline系统中接入TiCDC吐出的数据,数据工程师可以通过获取TiDB增量数据日志的方式,实时采集TiDB增量数据,精准获取增量数据、数据变化,有效降低数据源数据读取压力。

Db2数据目的地

支持通过JDBC的方式向Db2写入数据。

PostgreSQL数据目的地

支持通过JDBC的方式向PostgreSQL写入数据。

功能优化:

在高级清洗功能中,使用自定义依赖包处理数据

在之前的版本中,我们支持用户通过自定义Java数据处理脚本,对单条数据进行简单处理,如添加字段赋值、时间转换、字段截取/拼接等。

在实际的生产环境数据处理过程中,由于客户场景不同,单条数据处理的数据加工场景也不尽相同且愈发复杂。通过页面编辑清洗脚本的方式在代码相对复杂的场景中,用户使用友好程度较低。

在2.8.4版本中,我们支持在高级清洗功能中,通过程序调用自定义依赖包进行单条数据处理,在一些代码量较大的处理场景中,如数据加密/解密,复杂数据类型转换,数据脱敏操作等,提供了更友好的支持。现可以通过页面上传、管理依赖包,通过清洗脚本直接调用,省时省力。

数据映射批量配置

数据映射是将数据源的数据表和字段与数据目的地的表和字段建立映射关系的功能。数据映射配置是将源数据与目的地数据关联起来的步骤,是DataPipeline产品支持多元异构场景的核心。通过图形化的配置,您可以轻松地建立不同节点之间的数据映射,来为数据任务的运行做准备。

在之前的版本中,我们支持了数据映射页面化定义,将复杂的数据对应、转换、处理代码变成了交互式的页面配置,将数据需求的处理时间从2周缩短至10分钟。

在2.8.4版本中,我们支持了数据映射批量配置,选择要同步哪些数据源表后,可以通过批量操作选项,一键根据数据源结构创建目的地新数据表、一键根据数据源表名称自动匹配数据目的地表,一键添加目的地字段,一键应用高级清洗脚本。在多个数据源数百张至几万张数据表数据映射定义的场景中,可以将配置数据映射,应对数据需求的处理时间从10分钟缩短至所有表一次操作10秒钟完成。

高级清洗数据抽取优化

更新了高级清洗中,样例抽取的逻辑。具体优化内容,请参考配置清洗脚本

最后更新于

这有帮助吗?