选择链路与同步列表

Selecting Data Pipeline and Sync List

选择链路与同步列表是在数据任务中应用数据链路的配置选项并在已选数据链路中选择需要同步的数据映射的功能。

关于此功能

创建数据任务时您需要选择数据链路,并在已选数据链路的数据映射中选择需要同步的数据映射。

另外在2.8.5中新增了对于数据读取和处理速度的业务metric展示。基于表的粒度,展示该表的未读取数据量,剩余缓存数据量和剩余处理时间。

其中未读取数据量的计算方式为:当前映射要读取的数据映射的最大行数-当前读取的进度。

其他说明:仅全量读取时展示,不考虑高级清洗的条件过滤等因素。当遇到获取到的数据映射的最大行数不准确时,则先按照首次获取到的计算统计,当已读取超过首次获取的最大行数时,未读取数据显示为--,相应的剩余处理时间也显示为--。

剩余缓存数据量的计算方式为:

对于无kafka场景:计算为已读取的数据-已处理的数据;(这里的已读取数据量,为本次实际读取的数据量,不是累积的已读取数据量)

有kafka场景,缓存中该映射未写入的数据;

其他说明:全量及增量都支持

剩余处理时间的计算方式为:

如果读取不是瓶颈;(未读取数据量+缓存中未写入目的地的数据量)/当前的目的地写入速率 +校正时间(dashboard更新时间,内部组件的协调通信时间,数据库执行时间换算出映射最小执行时间)

如果读取是瓶颈;(未读取数据量/读取速率+校正时间)

其他说明:仅全量同步显示,增量不显示

操作步骤

  1. 在创建任务过程中,输入任务名称及描述进入任务详情页面;

  2. 点击选择链路,进入选择链路弹窗;

  3. 选择一条已创建好的链路,或者创建一条链路,选择完成后,点击保存;

  4. 回到任务详情页,基础配置,您可以选择同步列表:

    1. 选择同步列表即选择同步哪些已经配置好的数据映射;

    2. 当您选择了一个数据源的数据映射后,不允许选择其他数据源的数据映射。

  5. 通过切换当前数据源对应的多个数据目的地,可以选择一对多数据同步。


下一步

任务执行配置资源组配置激活数据任务

最后更新于

这有帮助吗?