2.3 管理数据任务

什么是数据任务

数据任务是DataPipeline同步进行数据同步的最小管理单位。数据任务支持全量同步模式与增量同步模式,满足不同的同步场景需求。

准确的任务配置是保证数据任务稳定运行的关键,运行相关的配置选项,例如数据源与数据目的地配置、数据映射、结构变化策略、主键冲突策略、增量处理策略、错误队列策略等,任务将完全应用链路的配置。与此同时,为了方便数据任务管理与运维的便捷性,在数据链路配置的基础上,数据任务可以自行定义自动重启策略、预警策略、日志策略、读取限制、写入限制、传输队列限制等配置选项。

丰富的配置种类为任务运行提供了稳定性保障,但配置选项过多也会对您理解并使用DataPipeline进行数据同步带来一定影响。

因此,从配置的逻辑层面我们将数据任务的配置分成了三个层级,基础配置、限制配置、策略配置。

数据任务基础配置

数据任务基础配置是数据任务可以成功运行的最小配置,完成数据任务基础配置后,数据任务将即限制任务读取并发个数。

选择数据链路

在新建数据任务过程中,您需选择数据链路,来应用数据链路的配置内容。

选择/修改同步列表

选择同步列表是在您已经为数据任务选择数据链路后,数据任务可以获取到链路中已经配置好的全部映射内容,您需指定该任务同步的数据映射范围。

任务执行配置

此配置指定任务执行方式,定时设置,全量初始化等配置选项。

任务资源配置

此配置指定任务执行过程中使用的物理资源。

数据任务限制配置

数据任务限制配置是为了保证数据任务稳定运行,对数据任务的读取、写入、传输队列进行限制的配置内容。

读取限制

作用于数据任务对数据源的读取。

读取速率限制

即限制任务读取速率。

读取并发限制

即限制任务读取并发个数。

写入限制

作用于数据任务对数据源的写入。

写入速率限制

即限制任务写入速率。

写入并发限制

即限制任务写入并发个数。

Batch设置

数据任务对数据目的地写入的Batch切分设置。

传输队列限制

作用于数据任务数据源的传输队列。

传输队列最大缓存值

即数据任务传输队列中单个表对应缓存Topic的最大缓存值。

传输队列回收时间

设置数据源读取和写入的传输队列回收时间,超过缓存时间的数据会被资源回收,从而造成数据丢失

数据任务策略配置

数据链路策略配置是解决任务运行问题的配置选项。

策略配置可以被分成两类:

一类是解决任务运行过程中可能会遇到的错误的系统自动的应对策略,其中包括:写入主键冲突策略、结构变化策略、主键冲突策略、增量处理策略、错误队列策略、自动重启策略等。

另一类是将任务运行信息记录,或将任务运行信息反馈至负责人,方便处理任务错误情况的功能,包括日志策略、预警策略,错误队列策略中的错误数据存储等。

写入主键冲突策略

写入主键冲突是在任务写入过程中,写入数据与目的地数据有主键冲突,任务执行的应对策略,我们提供覆盖数据与忽略数据的选项。

结构变化策略

结构变化策略是当数据源数据结构发生变化时,系统将为您执行的策略,能够有效避免由于数据源结构变化使任务暂停带来的影响。

增量处理策略

当数据源产生已同步的数据被删除这样的增量数据时,您可以通过配置增量处理策略来对这部分数据进行处理,保证数据一致性。

端到端一致性策略

在任务运行过程中,可以开启端到端一致性策略来保证数据从源端到目的地端的一致性。

自动重启策略

自动重启策略指当任务报错时,系统将执行自动重启策略,以对数据任务的不同错误类型做出是否重启的调整。

错误队列策略

开启错误队列策略,运行中的数据任务产生错误数据时,可以不暂停数据任务,将错误数据存储于指定节点,并记录错误堆栈信息。可有效避免因任务出现错误数据而暂停所带来的影响。

预警策略

通过设置预警规则,选择预警发送组,预警策略可以帮助您实现对关注内容的预警配置,实现当任务出现预警超出规则限制的情况时,可以及时通过预警发送方式(包括邮件与WebHook)通知到您

日志策略

合理的日志策略可以有效帮助您降低查询与管理日志数据的时间投入,通过日志策略,您可以配置日志记录的类别与日志存储方式。

数据任务的基本管理

创建数据任务

详见:创建数据任务

修改数据任务

详见:修改数据任务

删除数据任务

详见:删除数据任务

激活数据任务

详见:激活数据任务

挂起数据任务

详见:挂起数据任务

通过项目管理数据任务

数据任务项目分组指在数据任务首页可以对任务进行项目分组来进行统一管理,通过对数据任务的分组,您可以更清晰,更省时的进行任务管理,实现多项目任务解耦。

最后更新于

这有帮助吗?