数据加载策略

Data Loading Policy

数据加载策略是将数据写入目的地时,系统执行的写入方式与冲突解决方法的策略配置。

关于此功能

◎ 增量处理模式

在DataPipeline系统中,为了提升写入效率,我们将数据写入分成小的批次少量多次执行写入,为了提升写入效率,我们提供两种增量处理模式可供选择。

  • 全增量模式

    • 即将数据源的全部增量数据依次写入数据目的地,可以保证数据全局一致性。

  • 精简增量模式

    • 即在一个写入批次内,将同一主键的增量数据的最后一次变化同步至目的地,可以保证数据最终一致性。该模式需要数据源增量数据获取开启日志补全。

◎ 数据加载方式

在将数据写入数据目的地的过程中,可以通过配置数据加载方式来变更数据目的地写入时提交的SQL语句类型,以变更数据加载方式。

当前版本支持的数据加载方式有:Insert、Update、Delete、Ignore(忽略)、Merge(Upsert)。

◎ 主键冲突策略

当数据加载方式选择了insert,在向目的地数据写入过程中,可能会出现待写入数据主键与目的地已有数据主键相同的情况,insert语句将执行失败。遇到上述情况时,通过配置主键冲突策略,可以暂停数据任务或将数据写入错误队列后续处理来应对。

操作步骤

  1. 在数据链路详情页-策略配置tab中找到数据加载策略。

  2. 选择增量处理模式。

  3. 为数据源的每种数据操作标识选择数据加载方式。

  4. 选择主键冲突策略

  5. 保存配置

◎ 场景说明:数据目的地拉链表配置

在配置数据目的地过程中,可以在数据目的地添加一列,将该列标识为联合主键,通过清洗脚本赋值,其中可以存储数据源DML标识数据。

在数据加载方式中配置中,选择insert,即可实现目的地拉链表数据写入。

最后更新于

这有帮助吗?