2.2 管理数据链路
Setting up and Configuring Data Pipeline
数据链路是将数据任务配置集中管理,统一配置的功能模块。完成数据链路配置后,在数据任务配置中选择数据链路,相关配置将被直接应用至数据任务。
准确的链路配置是保证数据任务稳定运行的关键,例如数据源与数据目的地配置、数据映射、结构变化策略、主键冲突策略、增量处理策略、错误队列策略等,任务将完全应用链路的配置。与此同时,为了提升数据任务管理与运维的便捷性,在数据链路配置的基础上,数据任务可以自行定义自动重启策略、预警策略、日志策略等配置选项。
丰富的配置种类为任务运行提供了稳定性保障,但配置选项过多也会对您理解并使用DataPipeline进行数据同步带来一定影响。
因此,从配置的逻辑层面我们将数据链路的配置分成了三个层级,基础配置、限制配置、策略配置。
数据链路基础配置
数据链路基础配置是数据任务可以成功运行的最小化配置,即当数据任务选择已完成基础配置的数据链路,并完成数据任务基础配置,任务即可运行。其中包括:
◎ 数据源配置
数据源配置是对不同数据源的读取配置。
◎ 数据目的地配置
数据目的地配置是对不同数据源的写入配置。
◎ 数据映射配置
数据映射配置是将数据源数据与数据目的地数据通过映射关联的配置,其中包括:
» 表映射配置
数据映射-表映射配置是建立数据源表与数据目的地表映射关系的配置。
◎ 字段映射配置
数据映射-字段映射配置是建立数据源表中字段与数据目的地表中字段映射关系的配置。
◎ 读取内容限制
数据映射-读取内容限制是数据源读取内容的限制配置。
◎ 清洗规则配置
数据映射-清洗规则配置是对即将写入数据目的地的数据进行清洗处理的配置。
数据链路策略配置
数据链路策略配置是解决数据任务运行时可能遇到的问题的配置选项。
策略配置可以被分成两类:
一类是对于任务运行过程中可能会遇到的错误提供的系统自动的应对策略,其中包括:写入主键冲突策略、结构变化策略、主键冲突策略、增量处理策略、错误队列策略、自动重启策略等。
另一类是记录和反馈任务运行信息,方便处理任务错误情况提供的策略,包括日志策略、预警策略和错误队列策略中的错误数据存储等。
◎ 写入主键冲突策略
写入主键冲突策略是在任务写入过程中,写入数据与目的地数据有主键冲突时任务执行的应对策略,我们提供覆盖数据与忽略数据的选项。
◎ 结构变化策略
结构变化策略是当数据源数据结构发生变化时,系统将为您执行的策略,能够有效避免由于数据源结构变化使任务暂停带来的影响。
◎ 增量处理策略
当数据源产生已同步的增量数据被删除的情况时,您可以通过配置增量处理策略来对这部分数据进行处理,保证数据一致性。
◎ 端到端一致性策略
在任务运行过程中,可以开启端到端一致性策略来保证数据从源端到目的地端的一致性。
◎ 自动重启策略
自动重启策略指当任务报错时,系统将自动重启的策略,以对数据任务的不同错误类型做出是否重启的调整。
◎ 错误队列策略
开启错误队列策略时,运行中的数据任务产生错误数据时,可以不暂停数据任务,将错误数据存储于指定节点,并记录错误堆栈信息。有效避免因任务出现错误数据而暂停所带来的影响。
◎ 预警策略
通过设置预警规则,选择预警发送组,预警策略可以帮助您实现对关注内容的预警配置,当任务出现预警超出规则限制的情况时,可以及时通过预警发送方式(包括邮件与WebHook)通知到您。
◎ 日志策略
合理的日志策略可以有效帮助您降低查询与管理日志数据的时间投入,通过日志策略,您可以配置日志记录的类别与日志存储方式。
数据链路的基本管理
◎ 新增数据链路
详见:创建数据链路 Adding a Data Pipeline
◎ 编辑数据链路
详见:修改数据链路 Editing a Data Pipeline
◎ 激活数据链路
详见:激活数据链路 Activating a Data Pipeline
◎ 挂起数据链路
详见:挂起数据链路 Deactivating a Data Pipeline
◎ 删除数据链路
最后更新于
这有帮助吗?