1.1 产品概览
About DataPipeline
DataPipeline数据融合产品通过多年在数据融合技术领域的积累,支持Oracle、MySQL、Microsoft SQL Server及PostgreSQL等数据库的实时增量数据捕获,基于异构语义映射实现异构数据实时融合,帮助用户提升数据流转时效性,降低异构数据融合成本。在支持传统关系型数据库的基础上,对大数据平台、国产数据库、云原生数据库、API及对象存储也提供广泛的支持,并在不断扩展。
DataPipeline数据融合产品致力于为用户提供企业级数据融合解决方案,为用户提供统一的平台,同时管理异构数据节点的实时同步与批量数据处理任务,采用分布式集群化部署方式,可水平垂直线性扩展,保证数据流转稳定高效,让客户专注数据价值释放。

DataPipeline数据融合产品架构中关键组件的说明如下:
产品管理驾驶舱:用户配置,监控和管理各种数据融合任务的管理驾驶舱。用户可以通过管理平台注册节点、构建链路、配置任务,也可以通过管理平台监控融合任务的执行情况,按需调整各项策略配置与限制参数,控制管理任务状态。不仅记录用户的各项配置与自定义脚本,同时,管理平台还允许用户监控各类事件消息、数据节点连接状态,数据链路级别的任务执行情况、具体到数据对象的任务执行状态、延迟情况及其他统计信息。管理平台与运行监控及融合引擎完全解耦,数据融合任务配置完毕并激活后,即使终止管理平台的服务,也不会影响数据源与数据目的地之间的数据融合任务的执行。
运行监控服务:依据用户各类配置对融合引擎进行调度管理与信息收集的中间层。负责依据任务的执行配置对任务状态进行调度调整。在任务执行过程中出现数据源结构变化、错误数据、进程报错等各类情况时依据各项策略配置给出执行预案。收集任务执行过程中产生的各类信息,依据任务状态监控、运行情况统计、日志策略及预警策略等各项配置进行信息分类、统计、记录、推送及预警。
数据采集引擎:执行数据融合任务的核心引擎。负责采集不同类型数据节点实时增量数据。通过各类连接器实现各类数据源节点的日志解析、实时增量数据采集、结构检测、语义转化等工作。感知数据融合过程中的各类事件与情况,并基于自身记录的及运行监控给出的预案进行相应处理。
数据加载引擎:执行数据融合任务的核心引擎。负责清洗、融合不同类型数据节点实时增量数据,并实时加载到数据目的地。针对不同的数据节点类型提供相适应的、准确的、高性能的增量数据加载。同时负责按需执行结构变化策略与错误数据的发现与处理。感知数据融合过程中的各类事件与情况,并基于自身记录的及运行监控给出的预案进行相应处理。
消息队列:传输、缓存、持久化数据采集节点推送的实时增量数据并供数据加载节点使用。
数据采集代理:部署安装于数据源节点的日志解析工具,负责解析日志文件采集增量数据,并将数据发送至数据采集引擎。
运行监控缓存:包括任务状态缓存、运行事件缓存、错误队列缓存在内的任务执行过程中各个任务的状态信息、各类运行事件及出现的错误数据会被缓存在缓存中再交由各个相关管理模块使用,以保证任务执行的效率,减少运行监控、事件处理及错误数据处理对任务执行造成的资源消耗。
脚本存储:存储用户自定义脚本的文件系统,通过代码分发与动态加载实现分布式架构下的用户自定义脚本执行。
配置管理存储:
系统配置存储:存储系统信息、用户信息、权限信息、节点信息、链路信息、任务信息及其他各类配置信息的数据库。
监控信息存储:存储任务执行过程中的各类性能指标信息并存储运行监控要求的各类监控要求的加工计算指标。
错误队列存储(支持用户按照数据链路指定外部存储):存储错误数据与错误数据描述信息。
用户日志存储(支持用户按照数据链路指定外部存储):存储任务状态日志、任务报错日志、任务性能日志、配置变更日志、数据处理日志等用户定制的日志信息。
预警信息存储(支持用户指定外部存储):存储基于用户配置的预警规则收集的预警事件信息。
最后更新于
这有帮助吗?